
Stability AI, la entidad responsable del modelo Stable Diffusion, ha revelado el lanzamiento de Stable Cascade. Un modelo generador de imágenes que, según la firma, es más veloz y robusto que su anterior versión.
Actualmente, Stable Cascade únicamente está accesible en GitHub para investigadores, además su licencia no permite el uso comercial.
Funcionamiento de Stable Cascade
Esta nueva IA presenta una capacidad superior en términos de calidad, versatilidad, ajuste y eficacia al momento de crear imágenes. Al igual que otras IAs generadoras de imágenes, Stable Cascade es capaz de crear imágenes basándose en una descripción textual, así como elaborar variaciones posteriores de esa misma imagen. Además, mediante la función «image-to-image», puedes introducir nuevas directrices textuales para elaborar variaciones con diferentes matices.
Una característica notable de esta IA es la capacidad de duplicar la resolución de imágenes ya existentes. Por ejemplo, puede transformar una imagen de 1024 x 1024 en una resolución de 2048 x 2048.
Otras funcionalidades de edición de texto a imagen que incorpora la herramienta son «inpainting» y «outpainting», permitiendo al modelo rellenar una parte específica de la imagen.
Además, está la opción de «Canny Edge», la cual permite a los usuarios crear una obra nueva utilizando solamente los bordes de una imagen existente. También es capaz de ampliar bocetos.
Según
Con el anuncio de Stability AI, estas son solo algunas de las características de Stable Cascade, por lo que anticipamos que, a medida que se presente al público en general, podremos descubrir más potencialidades de la herramienta.
Stable Cascade: tres modelos en uno
Lo que distingue a Stable Cascade de otros modelos destacados de Stable Diffusion es que este no se clasifica como un modelo de lenguaje extenso, sino que consiste en tres modelos distintos fundamentados en la arquitectura Würstchen.
Su operación se distribuye en tres fases, denominadas A, B y C. Según Stability AI, «esta arquitectura facilita una compresión jerárquica de imágenes, logrando resultados sobresalientes mientras utiliza un espacio latente altamente comprimido».
La fase C recibe la entrada de texto del usuario y la transforma en fragmentos de código más pequeños. Estos se envían a las fases B y A para decodificar la petición y generar la imagen definitiva. Esta segmentación de las solicitudes en partes más pequeñas permite que se necesite menos memoria y menos horas de entrenamiento en GPU, lo que posibilita una ejecución más rápida y un rendimiento superior.
Foto: Stable Cascade