Google Lanza Gemini 1.5 Pro: Un Salto Cuántico en Comprensión AI

Contenido

Google ha dado a conocer un anuncio firmado en colaboración por Sundar Pichai, director ejecutivo de Alphabet y Google, y Demis Hassabis, director ejecutivo de Google Deep Mind, en el que ha revelado el nuevo modelo Gemini 1.5.

Este aviso se produce únicamente una semana después de que el coloso tecnológico lanzase Gemini Advanced y renombrase a Bard como Gemini. Es evidente que Google no solo está realizando una gran inversión en sus modelos de IA, sino que también está progresando rápidamente en una contienda donde permanecer en la delantera es crucial. Según Sundar Pichai, «Gemini 1.5. muestra notables mejoras en diversas dimensiones y 1.5 Pro alcanza una calidad comparable a la de 1.0 Ultra, mientras utiliza menos recursos computacionales».

Además, esta nueva generación presenta un progreso considerable en la interpretación de contextos extensos. Este incremento en la capacidad de procesamiento abre la puerta a habilidades completamente nuevas, potenciando la creación de modelos y aplicaciones mucho más eficaces.

Gemini 1.5 Pro: optimización y rendimiento superior

Demis Hassabis enfatiza que «Gemini 1.5 proporciona un rendimiento significativamente mejorado. Implica un cambio radical en nuestra estrategia, fundamentándose en innovaciones de investigación e ingeniería en casi todas las áreas de nuestra infraestructura y el desarrollo de modelos fundamentales. Esto incluye lograr que Gemini 1.5 sea más eficiente para entrenar y ofrecer servicios, con una nueva arquitectura de Mezcla de Expertos (MoE)».

La estructura altamente eficiente de Gemini 1.5, apoyada en la investigación de Google sobre la arquitectura Transformer y MoE, permite que el modelo adquiera habilidades complejas más velozmente y mantenga la calidad, siendo al mismo tiempo más eficiente en cuanto a entrenamiento y servicio. Estas eficiencias están ayudando a los equipos de Google a iterar, entrenar y producir versiones más avanzadas de Gemini a un ritmo sin precedentes.

El primer modelo que se lanzará para llevar a cabo las pruebas iniciales será el Gemini 1.5 Pro. Este es descrito como un modelo multimodal de tamaño intermedio, concebido para escalar a través de una amplia variedad de tareas y proporcionar un rendimiento comparable al de 1.0 Ultra.

Mejores y más amplias capacidades de comprensión de Gemini 1.5 Pro

El Gemini 1.5 Pro permitirá una ventana de contexto estándar de 128.000 tokens, pero se ha anunciado que un grupo restringido de desarrolladores y clientes empresariales podrá experimentar con una ventana de contexto de hasta 1 millón de tokens. «A medida que implementamos la ventana de contexto completa de 1 millón de tokens, estamos trabajando activamente en optimizaciones para mejorar la latencia, reducir los requerimientos computacionales y mejorar la experiencia del usuario», ha aclarado Hassabis.

Imagen que compara las capacidades de la ventana de contexto de 1 millón de tokens de Gemini 1.5 Pro con otros modelos anteriores

La aptitud de Gemini 1.5 Pro para gestionar extensas cantidades de datos en una única sesión es colosal, especialmente si consideramos la versión, actualmente de acceso restringido, que incorpora ventanas de contexto de hasta un millón de tokens. Esta puede manejar desde una hora de video, 11 horas de audio, bases de código que superan las 30.000 líneas, hasta más de 700.000 palabras. Esta capacidad para reflexionar sobre vastas cantidades de datos de diversas modalidades abre nuevas oportunidades para el análisis, categorización y síntesis de información dentro de un prompt específico.

Asimismo, desde Google han afirmado que esta inteligencia artificial podrá realizar razonamientos complejos sobre estas grandes volúmenes de datos: «1.5 Pro es capaz de analizar, clasificar y resumir sin inconvenientes extensas cantidades de contenido dentro de un mensaje particular. Por ejemplo, al proporcionarle las transcripciones de 402 páginas de la misión del Apolo 11 a la luna, puede razonar sobre diálogos, eventos y detalles que se encuentran en el documento».

Pruebas de seguridad meticulosas para asegurar el rendimiento adecuado

Conforme a los Principios de IA de Google y sus normativas de seguridad, Gemini 1.5 ha sido sometido a rigurosas pruebas de ética y seguridad. Estas evaluaciones están integradas en los procedimientos de gobernanza, desarrollo de modelos y análisis para perfeccionar de manera continua los sistemas de inteligencia artificial de Google.

Previo al lanzamiento de 1.5 Pro, se han llevado a cabo análisis exhaustivos en aspectos como la seguridad del contenido y los daños representacionales, y se seguirán ampliando estas pruebas para incluir las capacidades de contexto extenso de 1.5 Pro.

Google se dedicará a desarrollar y experimentar con modelos Gemini

Google se compromete a «presentar cada nueva generación de modelos Gemini a miles de millones de personas, desarrolladores y empresas de todo el mundo de forma responsable». A partir de la fecha actual, se está ofreciendo una vista previa gratuita limitada de 1.5 Pro a desarrolladores y clientes empresariales a través de AI Studio y Vertex AI. Si eres desarrollador o desarrolladora y tienes interés en experimentar con este modelo, puedes registrarte en este enlace.

para el futuro, explican que cuando el modelo esté preparado para un lanzamiento más general lo presentarán al público en general con una ventana de contexto estándar de 128.000 tokens. Posteriormente, introducirán diversos planes de pago que abarquen desde el modelo de 128.000 tokens hasta el de un millón.

Foto: Google