Descubre Imagen: La Innovadora IA de Google que Desafía a DALL-E 2

Contenido

Durante los años recientes, el entorno digital ha estado en un continuo cambio, y uno de los ámbitos que ha participado activamente en este progreso ha sido el de la IA o inteligencia artificial. Esta innovadora tecnología ha encontrado su lugar en múltiples sectores del entorno digital, mejorando funciones de automatización, análisis o recuperación de información, entre muchas otras.

Últimamente, el avance de esta tecnología ha adoptado un enfoque más visual con la introducción de Dalle-2, un proyecto del que discutimos recientemente. Este consiste en un sistema desarrollado para crear imágenes a partir de descripciones suministradas por los usuarios, generando resultados de notable realismo. La presentación de esta IA ha generado un gran revuelo en el mundo digital, lo que llevó a Google a reaccionar, lanzando su propio proyecto de IA en esta línea de desarrollo.

Imagen, el nuevo proyecto de IA de Google que genera imágenes a partir de texto

La empresa tecnológica ha presentado su proyecto de IA como un modelo de conversión de texto a imagen, que se propone como una alternativa a la IA de OpenAI, Dalle-2. Imagen, que es el nombre de esta iniciativa, brinda la posibilidad de crear imágenes fotorrealistas a partir de textos descriptivos.

«Una pared en un castillo real. Hay dos cuadros en la pared. El de la izquierda es un óleo detallado del rey mapache real. El de la derecha es un óleo detallado de la reina mapache.» / Fuente: Imagen

Imagen se basa en modelos lingüísticos avanzados para conseguir una comprensión profunda del lenguaje que su tecnología logra. Además, colabora con modelos de difusión para generar imágenes con un mayor grado de precisión. Es decir, imágenes que se ajusten de forma más efectiva a las descripciones proporcionadas en el texto.

«Un pomerania reposa en el trono del monarca con una diadema. Dos guerreros tigres están erguidos al lado del trono.» / Fuente: Imagen

Según las aseveraciones de Google, uno de los hallazgos más significativos en el avance de Imagen, es que la inclusión de extensos modelos lingüísticos eleva la precisión y la concordancia entre imagen y texto, en mayor medida que el simple aumento del tamaño del modelo que difunde imágenes. De esta manera, los modelos lingüísticos genéricos de gran escala, que han sido preentrenados en la comprensión de corpus de textos (conjunto de fragmentos de lenguaje organizados), son perfectos para las actividades de este proyecto de inteligencia artificial. Además, posibilitan la obtención de imágenes de alta calidad en relación con el texto, como las que hemos observado.

«Un adorable corgi reside en una vivienda construida de sushi.» / Fuente: Imagen

En otro orden de ideas, junto con la divulgación de estos resultados de investigación que hemos mencionado, Google también lanzó un DrawBench. Su objetivo es actuar como una guía y una comparación, constituyendo un punto de referencia sobre la aceptación de Imagen, en contraste con otros motores de IA dedicados a la generación de imágenes a partir de texto en el mercado, como Dalle-2 y VQ-GAN+CLIP. Según asegura Google, los resultados de esta comparación indican que los jueces humanos prefieren Imagen sobre estos otros modelos, tanto en lo que respecta a la calidad de la imagen como a la concordancia entre texto e imagen.

Un proyecto finalizado, por ahora

Tanto Google como OpenAI son conscientes de las amplias oportunidades de utilización, y de mal uso, que estos recientes modelos de difusión pueden brindar. Por tal motivo, se han enfocado en trabajar de manera restringida en sus respectivas tecnologías. En el caso de Dalle-2, es viable solicitar una prueba de la IA a través de un formulario, mientras que con Imagen han optado por mantenerla completamente separada. Así, se ha tomado la decisión de no publicar ningún tipo de código o demostración accesible al público sobre la creación de las imágenes.

AI can unlock joint human/computer creativity! Imagen is one direction we are pursuing:https://t.co/LTlE3pqq4W

“A high contrast portrait of a very happy fuzzy panda dressed as a chef in a high end kitchen making dough. There is a painting of flowers on the wall behind him.” pic.twitter.com/SrqEv9jeHf

— Jeff Dean (@JeffDean) May 24, 2022

Con esto en mente, la única interacción directa con la creación de imágenes de Imagen se realiza a través de un breve demo disponible en su página de presentación. Además de las publicaciones distribuidas por Jeff Dean, Vicepresidente de Google, y otros miembros del equipo de investigación.

Imagen: Imagen («The Toronto skyline with Google brain logo written in fireworks»)