Google actualiza su modelo de IA para manejar textos y videos más largos

Gemini 1.5 puede procesar mucha más información en comparación con los últimos modelos de IA de OpenAI, según Google

Google actualiza su modelo de IA para manejar textos y videos más largos
Por Davey Alba
17 de febrero, 2024 | 06:00 AM

Bloomberg — Google, de Alphabet Inc. (GOOGL), está lanzando una nueva versión de su potente modelo de inteligencia artificial que, según afirma, puede manejar mayores cantidades de texto y video que los productos de la competencia.

El modelo de inteligencia artificial actualizado, denominado Gemini 1.5 Pro, está disponible desde el pasado jueves para que los clientes y desarrolladores de la nube puedan probar sus nuevas funciones y, en su caso, crear nuevas aplicaciones comerciales. Google y sus rivales han invertido miles de millones en mejorar sus capacidades de IA generativa y están deseando atraer a clientes corporativos para demostrar que sus inversiones están dando frutos.

VER +
OpenAI presenta un sistema de IA para convertir texto en videos realistas

Oriol Vinyals, vicepresidente de Google y codirector tecnológico de Gemini, declaró en una rueda de prensa: “Hoy nos centramos sobre todo en presentarles la investigación que ha hecho posible este modelo. “Mañana, estamos impacientes por ver qué hará el mundo con las nuevas capacidades”. La versión de tamaño medio del nuevo modelo de IA, Gemini 1.5 Pro, rinde a un nivel similar al modelo Gemini 1.0 Ultra, de mayor tamaño, según Google.

Desde el éxito arrollador de OpenAI a finales de 2022 con su chatbot conversacional ChatGPT, Google se ha esforzado por demostrar que también es una fuerza en la tecnología de IA generativa de vanguardia, que puede crear nuevos textos, imágenes o incluso vídeos basándose en las indicaciones del usuario. Cada vez son más las empresas que experimentan con esta tecnología, que puede utilizarse para automatizar tareas como la codificación, el resumen de informes o la creación de campañas de marketing.

PUBLICIDAD

Google lanzó su modelo de IA Gemini en diciembre con tres versiones, lo que permite personalizarlo según la tarea y ejecutarlo en todo tipo de dispositivos, desde móviles a centros de datos a gran escala. Gemini es la respuesta de Google a las fuerzas aliadas de Microsoft Corp. (MSFT) y OpenAI, que según algunos han sido más rápidas en aprovechar el actual auge de la IA, incluso entre clientes y desarrolladores de la nube.

VER +
YouTube exigirá a creadores revelar si sus videos incluyen inteligencia artificial

Ahora, Google quiere atraer a esos usuarios a su ecosistema con herramientas aún más potentes. Según Vinyals, Gemini 1.5 puede entrenarse de forma más rápida y eficaz, y es capaz de procesar una gran cantidad de información cada vez que se le solicita.

Por ejemplo, los desarrolladores pueden utilizar Gemini 1.5 Pro para consultar hasta una hora de video, 11 horas de audio o más de 700.000 palabras en un documento, una cantidad de datos que, según Google, es la “ventana de contexto más larga” de cualquier modelo de IA a gran escala hasta la fecha. Según Google, Gemini 1.5 puede procesar muchos más datos que los últimos modelos de IA de OpenAI y Anthropic.

PUBLICIDAD

En un video de demostración pregrabado para los periodistas, Google mostró cómo los ingenieros pidieron a Gemini 1.5 Pro que ingiriera una transcripción en PDF de 402 páginas del alunizaje del Apolo 11, y luego le pidieron que encontrara citas que mostraran “tres momentos divertidos”. Una de las respuestas del modelo de IA señalaba que, a las cinco horas de la transcripción de la misión Apolo 11, el astronauta Michael Collins dijo a Control de Misión: “Si tardamos en contestarle, es porque estamos comiendo bocadillos”.

En otra demostración pregrabada, los ingenieros de Google pidieron a Gemini 1.5 Pro que encontrara una escena concreta en una película de Buster Keaton de 44 minutos, proporcionando al modelo de IA un boceto de la escena que recordaban. Gemini encontró la escena con éxito, señalando que aparecía alrededor del minuto 15 del video.

Google advirtió, sin embargo, que como todos los modelos generativos, las respuestas no siempre son perfectas. Gemini 1.5 Pro sigue siendo propenso a las alucinaciones, a veces funciona con lentitud y no siempre entiende la intención de los usuarios, obligándoles a formular sus preguntas de diferentes maneras antes de que el modelo dé con la respuesta correcta. Vinyals dijo que la empresa está “trabajando para optimizar” el rendimiento de Gemini 1.5 para hacerlo más rápido y que “todavía está en fase experimental y de investigación”.

La compañía dijo que los desarrolladores pueden explorar Gemini 1.5 Pro utilizando AI Studio de Google, mientras que algunos clientes de la nube pueden acceder al modelo de IA en vista previa privada en su plataforma empresarial, Vertex AI. Google también dijo el jueves que ampliaría el acceso a su Gemini 1.0 Ultra a gran escala, abriendo el modelo a un mayor número de clientes globales en Vertex AI.

Lea más en Bloomberg.com