
El potencial de la IA generativa se incrementa cada día y la reciente gran innovación de Google en este ámbito ha sido el despliegue de Lumiere. Un modelo de difusión espacio-temporal respaldado por IA, habilitado para convertir texto e imágenes en vídeos de hasta 5 segundos con una calidad sumamente realista.
Para la creación de este modelo, que ha sido capacitado con un repertorio de 30 millones de vídeos junto con sus subtítulos textuales y que es capaz de producir 80 fotogramas a 16 fps, el equipo de investigadores de Google ha colaborado con el Instituto Weizmann de Ciencias y la Universidad de Tel Aviv.
Lumiere, un sólido contendiente en la IA de producción de vídeo
Lumiere, un modelo que convierte texto en vídeo e imagen en vídeo, posee la capacidad de transformar palabras e imágenes estáticas en secuencias de vídeo con un elevado nivel de realismo.
Como explica Google, lo que distingue a su modelo de otras IA generadoras de vídeo es que estas «sintetizan fotogramas clave distantes seguidos de superresolución temporal, un método que intrinsicamente dificulta la consecución de una coherencia temporal global», lo que resulta en producciones que son poco realistas y con movimientos poco dinámicos.
Considerando estas limitaciones, el equipo de investigadores de Google se han aventurado a alterar la arquitectura para dar forma a un modelo que puede crear un vídeo completo en una sola acción, permitiendo movimientos más naturales y realistas. Por lo tanto, Lumiere tiene «una arquitectura Espacio-Tiempo U-Net que genera la duración temporal total del vídeo de una sola vez, a través de un único paso en el modelo».
Funcionalidades de Lumiere
Lumiere todavía no ha sido presentado oficialmente y tampoco puede ser probado en una versión beta; sin embargo, Google ha compartido un documento donde detalla su tecnología y lo ha exhibido en su propia página de Github, donde ofrece varios ejemplos de su capacidad y funcionamiento. Más allá de la producción de vídeo, entre sus funcionalidades destaca:
- Creación de nuevos estilos: a partir de una imagen de referencia, el modelo puede generar vídeos que imiten el estilo artístico de dicha imagen, teniendo la opción de incluir nuevos elementos.
- Estilización de vídeo: Lumiere puede hacer que un objeto o persona de un vídeo existente adquiera un estilo diferente. En el vídeo de muestra del modelo, se muestra cómo transforma a una mujer y a un perro en figuras de origami, o cómo serían si estuvieran elaborados con bloques de madera.
- Animar imágenes fijas: del mismo modo, el modelo tiene la capacidad de animar partes de una imagen estatica. Por ejemplo, Lumiere podría animar la imagen de una mariposa sobre una planta, haciendo que el insecto vuele sus alas.
- Completar vídeos reales: una función fundamental de Lumiere es su habilidad para rellenar con precisión vídeos incompletos o que tienen secciones recortadas. Una herramienta muy útil para ampliar el contexto de un vídeo.
- Modificación en tiempo real: también es posible cambiar partes de un vídeo. Por ejemplo, se puede alterar la vestimenta de una persona por otra a partir de una descripción textual o incluso eliminar elementos no deseados.
Otras IAs generadoras de vídeo
En el mercado hay numerosas herramientas de creación de vídeo a partir de texto e imágenes, como el caso de Runway Gen-2, lanzada en julio de 2023, que ha conseguido un convenio con el programa de edición Canva; Pika 1.0, presentada en noviembre; y Stable Video Diffusion, lanzada también en noviembre y que se encuentra todavía en una fase muy temprana.
Todas han prometido transformar el ámbito de la creación de vídeo a partir de texto, y ahora cuentan con un nuevo y potente competidor. Lumiere ha alcanzado una naturalidad bastante avanzada, por lo que se perfila como un jugador difícil de superar.
Foto: Google