Las herramientas más innovadoras de inteligencia artificial para crear imágenes

La inteligencia artificial progresa a un ritmo acelerado, ofreciendo innovadoras soluciones, muchas de las cuales ya hemos incorporado como parte de nuestra vida cotidiana. Y una de las tecnologías que parece destinada a transformarse en una herramienta muy presente en nuestra existencia diaria son las IA generadoras de imágenes. Sistemas capaces de producir imágenes realistas o ilustraciones a partir de descripciones escritas por sus usuarios.

Si aún no conoces estas herramientas o si solo has escuchado sobre algunas, te traemos una lista, organizada según nuestro criterio de uso y conocimientos en el área, de las IA generadoras de imágenes más destacadas en la actualidad. Además, al final del artículo te proporcionaremos consejos sobre cómo formular buenos prompts para obtener los mejores resultados.

Midjourney
Dalle-3
Dreamstudio
Firefly
Recraft
Flux
Ideogram
Krea.ai
StableDiffusion Web
Sketch to Image (Pikaso)
Nightcafe
Stable Doodle
Stable Diffusion XL

El protagonismo que estos modelos han adquirido ha ido en aumento y, lejos de detenerse, sigue creciendo. Del mismo modo, su complejidad y su capacidad de comprensión y ejecución también han progresado, evolucionando de simples prototipos iniciales a modelos con resultados altamente precisos.

Estas inteligencias artificiales son capaces de desarrollar una comprensión profunda del lenguaje escrito, creando imágenes que se ajusten a la descripción proporcionada. Toda una revolución que democratiza la creación de imágenes e ilustraciones, acercando el diseño a todas las personas, sin importar sus habilidades artísticas.

Midjourney es un pequeño laboratorio de investigación autónomo que busca abrir nuevas vías y expandir la creatividad humana. Actualmente cuenta con 11 integrantes y un equipo de asesores.

Inicialmente, para poder utilizar su IA generadora de imágenes debías tener una cuenta de Discord, pero desde agosto de 2024 esto ya no es imprescindible. Ahora, Midjourney dispone de una interfaz web muy amigable.

Esta IA ofrece cuatro planes de suscripción tanto anuales como mensuales: el Básico por 10$/mes (8$/mes con el anual), el Estándar por 30$/mes (24$/mes en el anual), el Pro por 60$/mes (48$/mes en el anual) y el Mega por 120$/mes (96$/mes en el anual).

Cada vez que ingreses un texto se generarán 4 opciones de imágenes (tanto en el generador de Discord como en la web). La versión en línea es más simple, ya que no requiere el uso de comandos y también han incorporado algunas nuevas funciones.

Ilustración generada con la inteligencia artificial creadora de imágenes Midjourney, que presenta una vivienda en el campo, con montañas y un cielo nublado al fondo, y un sendero rodeado de girasoles en primer plano — Imagen generada con Midjourney por el usuario «Mooji0046» bajo la descripción «Pintura de paisaje tradicional de un campo de girasoles en plena floración que conduce a una granja apartada, con un cielo azul despejado y colinas ondulantes distantes, ricas en color y detalle»

La versión optimizada de Dalle-2, la inteligencia artificial creadora de imágenes desarrollada por OpenAI. El principal progreso de Dalle-3 en comparación con su predecesora (y otras IA) radica en que capta de manera más efectiva y detallada las descripciones textuales que los usuarios introducen para generar las imágenes. Así, aprender prompt engineering, es decir, dominar la elaboración de descripciones precisas para obtener los resultados deseados por medio de la inteligencia, ya no es tan indispensable. No obstante, ten presente que cuanto más exacto sea tu prompt, más lo será tu creación.

Del mismo modo, las imágenes que produzcas con Dalle-3 serán de tu propiedad, no necesitarás autorización de OpenAI para imprimir, comercializar o utilizarlas. Esta IA se encuentra integrada de manera nativa en los planes de ChatGPT, combinando las capacidades de ambas herramientas. Sin embargo, en la versión gratuita, las funciones de esta IA generadora son más limitadas.

Sin embargo, también puedes acceder a Dalle-3 de forma gratuita a través de Microsoft, que la ha incorporado en el chatbot de Bing (ahora denominado Copilot).

Captura de pantalla del panel de Chat Bing para utilizar Dalle-3 — Panel de Chat Bing para emplear Dalle-3

Para ello, solo hay que ingresar al buscador de Bing, pasar a Copilot y solicitar que genere la imagen que desees. La herramienta creará un máximo de cuatro imágenes por intento (en ocasiones solo produce tres), y te permitirá descargar todas las que desees. Además, una vez que se generen las obras,te recomendará nuevas instrucciones que puedes emplear para ajustar o alterar tus imágenes.

Imagen generada con Dalle-3 de un castor adornado con una corona de margaritas edificando una presa con ramas y troncos en un río junto a una cascada — Imagen generada con Dalle-3 en Bing bajo la descripción «Crea la imagen de un castor con una corona de margaritas construyendo una presa con ramas y troncos en un río que finaliza en una cascada»

Una de las funcionalidades más beneficiosas de Dalle-3 es su habilidad para agregar palabras o frases a las imágenes. Aunque es importante mencionar que, actualmente, esta característica a veces no reproduce correctamente ciertas palabras. Un avance que ha logrado es que ahora tiene la capacidad de escribir en español, mientras que antes solo lo hacía en inglés, independientemente del idioma de tu solicitud.

Imagen generada con Dalle-3 de un cartel que presenta el paisaje de un río en un bosque y un castor con una corona de margaritas guiñando el ojo y sonriendo, sobre él aparece la frase 'cuida los bosques' — Imagen con texto generada con Dalle-3 en Bing bajo la descripción «Crea un cartel que muestre el paisaje de un río en un bosque y un castor adornado con una corona de margaritas guiñando el ojo y sonriendo, y sobre él aparece la frase ‘cuida los bosques»

La tercera herramienta en nuestra lista es la desarrollada por Stability AI, una comunidad compuesta por más de 140.000 programadores. Dreamstudio se fundamenta en el modelo para crear imágenes decódigo abierto denominado como Stable Diffusion.

Lo que distingue a Dreamstudio de otras inteligencias artificiales generadoras de imágenes son, esencialmente, dos aspectos. Primero, que cualquiera puede acceder a ella comenzando con una prueba inicial gratuita. Una vez que se hayan consumido las imágenes gratuitas, se debe abonar una recarga mínima de 10 libras para seguir utilizándola. Además, las imágenes se crean bajo una licencia que permite su uso tanto comercial como no comercial. El segundo aspecto es que esta no es un modelo cerrado, y desde Stability AI fomentan a los usuarios a realizar revisiones públicas y sugerir mejoras que fortalezcan y optimicen la herramienta.

Asimismo, Dreamstudio proporciona una amplia variedad de parámetros que puedes modificar para personalizar el resultado a tu preferencia:

Estilo artístico de la creación.
Definir el ancho y la altura de la imagen.
Cantidad de imágenes generadas.
«Prompt strength»: cuanto más elevado sea el valor que indiques, mayor será el grado de correspondencia entre tu descripción y la imagen final.
Cantidad de pasos que se dedicarán a la elaboración.
Modelo que la herramienta empleará.

Sin embargo, dependiendo de la configuración que establezcas, esto consumirá más o menos créditos de imagen. Por lo tanto, deberás tener especial cuidado para no agotar el límite de imágenes gratuitas.

ejemplo de uso dreamstudio — Panel de Dreamstudio

Igualmente, esta IA también te permite modificar las obras que crees con ella o las imágenes que subas desde tu dispositivo. Desde Stability AI siguen perfeccionando Dreamstudio, lanzando nuevos modelos (como el SDXL v1.0 que actualmente está en fase beta) y efectuando mejoras, con el objetivo de que la herramienta siga aprendiendo y se reducen los posibles resultados adversos que surjan de inadecuados significados, estigmas o connotaciones negativas relacionadas con el lenguaje y su uso.

Para poder acceder a la IA generadora de imágenes desarrollada por Adobe, es necesario cumplir con dos requisitos: ser mayor de 18 años y poseer una cuenta en Adobe. Esta herramienta ha sido entrenada con conjuntos de datos de licencia abierta y Adobe Stock, en colaboración con NVIDIA, una empresa tecnológica estadounidense especializada en la creación de unidades de procesamiento gráfico. El hecho de que Firefly haya sido diseñada de esta manera representa, en principio, una garantía para evitar inconvenientes asociados a los derechos de autor.

Ofrece un plan gratuito y dos planes de pago. Con el primero, contarás con 25 créditos mensuales, mientras que el plan Standard, que tiene un costo de 11,17€/mes (o 111,84€/año en la versión anual), proporciona 2.000 créditos mensuales. Por su parte, el plan Pro cuesta 33,54€/mes (o 335,53€/año) y ofrece 7.000 créditos mensuales.

Utilizar esta IA es muy fácil; podrás generar imágenes a partir de una descripción escrita y, por supuesto, ajustar parámetros comoel diseño, tono, tamaño, iluminación o disposición de la imagen.

Una característica significativa de Firefly es la diversidad de opciones que ofrece. No solo podrás elaborar obras desde cero, sino que también tendrás la alternativa de incorporar elementos o ampliar la imagen teniendo en cuenta el contexto original, asegurando así que todo permanezca equilibrado; crear efectos tipográficos; cambios de color, etc.

Asimismo, Adobe está desarrollando nuevas funcionalidades como el modelado 3D o la generación de imágenes a partir de diseños propios, sin requerir texto.

Interfaz del panel de creación de Firefly de Adobe, una de las IA generadoras de imágenes más populares — Panel de Firefly

Para utilizar Firefly, puedes acceder a su plataforma en línea, pero además, está incorporada en el paquete beta de generación de contenidos Adobe Express.

Recraft es una plataforma de creación y edición de imágenes establecida en 2022 en los Estados Unidos, que ha ganado popularidad en los últimos meses. En particular, desde que su IA generadora de imágenes, conocida bajo el nombre clave Red_panda, superó a modelos establecidos como Midjourney, Black Forest Labs (Flux) o Ideogram en múltiples competiciones (Arena) organizadas en la plataforma especializada en IA Artificial Analysis.

Según datos de la plataforma, Recraft cuenta con más de 1,5 millones de usuarios en 200 países, incluyendo diseñadores de importantes empresas como Netflix, Ogilvy, HubSpot, Asana o Airbus.

Esta IA se destaca por sus resultados de alta calidad y coherencia. Otros aspectos notables de Recraft son sus excelentes capacidades en la generación de texto dentro de imágenes y la creación de arte vectorial. Además, ofrece un lienzo infinito y la posibilidad de colaborar en tiempo real.

Recraft ofrece un plan gratuito y tres planes de pago de 10$, 27$ y 48$ al mes. Su versión gratuita es bastante útil y proporciona 50 créditos diarios (generar o modificar una imagen cuesta entre 1 y 2 créditos, según el formato). Sin embargo, la desventaja de la versión gratuita es que las imágenes permanecen bajo derechos de Recraft y no podrán usarse con fines comerciales.

Para comenzar a crear imágenes con Recraft, debes seleccionar la opción «Image». Después de esto, podrás elegir si deseas crear una imagen o un vector, especificar qué elementos quieres excluir de la imagen, aplicar paletas de colores, definir la proporción, el número de imágenes que planeas crear y establecer si serán públicas o privadas (en el plan gratuito son públicas por defecto).

Captura del panel de creación de Recraft tras generar dos imágenes a partir de un prompt y una selección de ajustes concreta — Ejemplo de aplicación de la IA generadora de imágenes de Recraft

Las opciones creativas que ofrece Recraft no se limitan únicamente a su funcionalidad «Image», y en su panel de creación podrás explorar numerosas otras características. Algunas de estas incluyen:

Frame: amplía el contexto de una imagen e incorpora texto de manera natural en este nuevo entorno con facilidad.
Image Set: produce hasta 6 imágenes en un lote utilizando un mismo estilo.
Mockup Generator: verifica cómo se vería la inclusión de tu logotipo o diseños creativos aplicados en diversos productos. Esta herramienta consigue que el diseño se integre de manera realista en el objeto y se ajuste a sus formas.
Text: genera textos para ser insertados directamente en las imágenes que crees o para ser utilizados con «Frame».
Modify Area: selecciona un área específica de tu creación y modifícala mediante un prompt sin tener que generar una imagen completamente nueva. Podrás añadir elementos, cambiar características, etc.

Asimismo, la plataforma te proporciona tutoriales para aprender a manejar funciones específicas o a crear tipos determinados de obras.

Esta IA fue lanzada a inicios de agosto de 2024 y ha sido creada por un grupo de ingenieros que dejaron StableDiffusion para formar su propia compañía, Black Forest Labs.

Flux es una colección de modelos de texto a imagen desarrollados con un código abierto y entrenados con una vasta cantidad de información. Su rasgo distintivo es su amplia comprensión del lenguaje, lo que le permite interpretar y entender descripciones complejas y devolverlas en formato de imágenes detalladas, coherentes y fotorrealistas.

Además de su notable precisión en la comprensión y adherencia a los prompts, resalta en la generación de imágenes de alta resolución y en la creación de detalles. Asimismo, Flux presenta tres versiones diferentes según las necesidades del usuario: FLUX.1 [Schnell], la más básica; FLUX.1 [Dev], destinada a desarrolladores; y FLUX.1 [Pro], cuyo público objetivo son los profesionales.

Respecto a cómo utilizar Flux, hay varias maneras de acceder a esta IA. Aunque el acceso a Pro es limitado, puedes utilizar las versiones Dev o Schnell a través de plataformas como Fal.AI y Replicate. Si eliges una suscripción de pago, el coste de generar una imagen en Replicate con la versión Schnell es de menos de 1 céntimo. Además, si utilizas Schnell a través de Replicate, podrás usar tus creaciones para fines comerciales.

También tienes la opción de descargar Dev y Schnell desde HuggingFace, donde también se puede encontrar un código de inferencia en GitHub que asiste a los programadores a iniciar el uso de la plataforma, y poseen la integración de ComfyUI.

Al emplearla desde Replicate, nos toparemos con un tablero de creación similar al de otras herramientas en este ámbito. Dispone de un campo de texto para escribir el prompt y diversas funcionalidades de configuración: relación de aspecto, cantidad de imágenes a generar (con un máximo de 4), semilla, formato de imagen (webp, jpg o png) y calidad de la imagen generada.

Captura que muestra la vista del panel de creación de Flux Schnell en la plataforma Replicate — Tablero de creación de Flux Schnell en Replicate

Esta IA se caracteriza de las demás por estar especializada en la incorporación de texto en las imágenes que produce. Además de crear impresionantes obras de arte, tendrás la opción de incluir palabras, frases o textos en ellas, ampliando las posibilidades creativas. Asimismo, esta y otras funciones se han visto mejoradas gracias al lanzamiento reciente de la nueva versión Ideogram 2.0.

Para acceder a Ideogram, simplemente tienes que inscribirte en su plataforma con tu cuenta de Google o Apple. La herramienta ofrece una versión gratuita, con la que recibirás 10 créditos por semana, y tres planes pagos: Basic (7$/mes), Plus (16$/mes) y Pro (48$/mes).

Una vez que te hayas inscrito, tendrás acceso a su página principal, la cual te presentará todo lo que requieres. En la parte superior se encuentra la barra de texto desplegable para crear imágenes. Debajo de esta verás varias opciones que te permitirán explorar las obras generadas por otros usuarios, así como el apartado «Mis imágenes», donde podrás acceder a todas tus creaciones.

Captura de pantalla de la página de inicio de la IA generadora de imágenes Ideogram — Página principal de Ideogram

Al momento de crear, solo necesitarás ingresar tu frase en el campo de texto (igual que en otras IA, te sugerimos hacerlo en inglés), elegir o no alguno de los 5 estilos artísticos que brinda la herramienta, y ajustar las opciones de configuración. Aunque este último aspecto estará más o menos restringido en función del plan que utilices.

En la modalidad gratuita solo podrás emplear el magic prompt (herramienta que corrige y optimiza tu prompt inicial para obtener una variedad de imágenes), ajustar las dimensiones de la creación, optar por aplicar o no una paleta de colores y decidir si prefieres utilizar el modelo 1.0 o el nuevo 2.0 de esta IA.

Captura del panel de resultados de Ideogram donde se observan cuatro imágenes de una nutria bordada en un paño blanco junto a la frase, también bordada, — Panel de resultados de Ideogram

Ideogram generará cuatro imágenes para ti y tendrás la opción de descargarlas todas.

Lo distintivo de esta IA es que incorpora un generador en tiempo real mediante bocetos y prompts. Para ello, la herramienta te ofrecerá un lienzo donde podrás dibujar, insertar formas geométricas y fotografías, cargar más imágenes desde tu dispositivo y eliminar elementos.

Krea.ai es una IA bastante fácil de usar y su manejo no presenta demasiadas complicaciones, aunque es cierto que, en un comienzo, su generador en tiempo real puede parecer un poco abrumador, ya que este irá generando resultados mientras tú experimentas con sus diversas herramientas. Sin embargo, también tienes la opción de utilizar su generador estándar, que funciona como el de otras IAs de imágenes. Una excelente noticia es que, aunque ofrece planes pagos, también dispone de una versión gratuita muy funcional.

En su generador en tiempo real, las opciones de edición están concentradas en dos barras de herramientas a ambos lados de la interfaz y en un menú ubicado en la parte inferior de la pantalla. En la barra derecha hallarás opciones de estilo para aplicar a tu creación (HD, foto, caricatura…). Por otro lado, en la izquierda se encuentran las herramientas de edición.

Asimismo, en su menú inferior podrás acceder a opciones de mejora de la calidad, descargar, ajustar dimensiones y la posibilidad de combinar ambos lienzos para trabajar directamente sobre la obra en evolución. Además, en este menú encontrarás las diferentes posibilidades creativas:

Compose: lo que hace única a esta IA. Además de redactar un prompt, interactúa con el lienzo creando tu boceto para guiar a la herramienta.
Text: la versión más «convencional», la de texto a imagen. Introduce un prompt de texto y genera tu obra.
Screen: comparte pantalla con Krea.ai y crea una obra a partir de lo que le muestres. Incluye las opciones de edición de Img2Img.
Camera: proporciona acceso a la cámara de tu dispositivo y elabora creaciones en función de lo que estés observando. También ofrece las herramientas de edición de Img2Img.

Para describir su panel de edición, nos enfocaremos en la opción Compose, ya que es el mismo que se utiliza en la versión Camera. Como puedes notar en la imagen siguiente, el panel de edición está formado por dos lienzos: el de la izquierda es el que interactúa el usuario y el de la derecha es donde la IA elabora la creación.

Captura del editor de Krea.ai — Panel de creación de Krea.ai

Las herramientas de edición son las siguientes:

Select: para desplazar imágenes, formas y otros elementos de tu diseño.
Shapes: para incorporar círculos, rectángulos o triángulos.
Generate image: permite producir una imagen con IA a través de un prompt personalizado o aleatorio que puedes incluir en tu diseño.
Upload image: carga una imagen desde tu dispositivo para enriquecer tu diseño o basarte en ella.
Paint brush: pincel para pintar manualmente. Tienes la opción de seleccionar el grosor del trazo y el color.
Eraser: borrador para suprimir trazos o segmentos de las formas geométricas.
Delete: opción para eliminar por completo objetos o formas geométricas con un solo clic.
Canvas background: introduce un color, una fotografía (ya sea de Krea.ai o de tu dispositivo), texturas o ilustraciones como fondo para tu diseño.

Captura que muestra la función — Función «Camera» de Krea.ai

Sketch to Image (originalmente llamada Pikaso) es otra IA capaz de generar imágenes en tiempo real utilizando texto, imágenes y bocetos, similar a Krea.ai. Fue creada a finales de 2023 por Freepik, el banco de imágenes y recursos audiovisuales español, y cuenta con una interfaz muy amigable.

Su editor se compone de dos lienzos, uno al lado del otro. En el lienzo a la izquierda, se realiza el boceto y en el de la derecha se generan resultados conforme realices acciones. Además, en la parte superior aparece un cajón de texto donde puedes escribir el prompt (tienes la posibilidad de moverlo para colocarlo donde te resulte más conveniente) y la opción “Imagination”, que ajusta el nivel de creatividad de la IA.

Captura de pantalla que demuestra un ejemplo de uso del panel de creación de Sketch to Image (Pikaso) de Freepik — Panel de creación de Sketch to Image (Pikaso)

Igualmente, en la parte inferior de la pantalla hay una barra de herramientas, donde se presentan opciones de selección, dibujo, incorporación de íconos y elementos, carga de imágenes, etc. Además, si mueves el cursor sobre el lienzo a la izquierda, aparecerán más alternativas, que incluyen la función «Quick Enhance», que mejora la calidad de la imagen creada; la opción de generar variaciones y de copiar la imagen elaborada en el lienzo de bocetos para trabajar sobre ella; y un acceso directo a la opción «Reimagine».

Respecto a las opciones disponibles a la izquierda de la pantalla, estas proporcionan acceso a las otras herramientas de IA generativa de Freepik:

Images: una IA generadora de imágenes convencional.
Videos: ofrece acceso a su IA generadora de vídeos, que actualmente está en fase beta.
Reimagine: IA generadora de imágenes que permite crear variaciones de una imagen existente.
Sketch: la IA generadora en tiempo real que estamos discutiendo.

La única cuestión que podría surgir con Pikaso es que, al ser una IA generadora en tiempo real, cada variación o adición que realices en tu boceto resultará en una nueva creación. Esto significa que los créditos se consumen más rápidamente y puede ser un poco agobiante, especialmente si utilizas el plan gratuito, el cual otorga generaciones limitadas. Puedes verificar cuántos usos has empleado en el pequeño contador que aparece en la esquina superior derecha de la herramienta.

Así es, efectivamente, esta herramienta también se fundamenta en el mismo modelo (Stable Diffusion) que utiliza Dreamstudio. Aunque inicialmente era completamente gratuita y no requería ningún registro para ser utilizada, ahora es necesario crear una cuenta para poder acceder a sus funciones. El plan que se te proporcionará por defecto es el gratuito, que te ofrece 10 créditos que se restablecen cada 24 horas. Para obtener mayor cantidad de créditos y mejores condiciones, puedes suscribirte a uno de los dos planes de pago.

En lo que respecta a su funcionamiento, además de introducir el prompt, podrás elegir uno de sus más de 20 estilos (o ninguno), establecer la relación de aspecto y si deseas generar una, dos o cuatro imágenes (esta última opción es exclusiva para suscriptores). Al igual que las herramientas anteriores, su rapidez es notable, creando imágenes en cuestión de segundos.

Un aspecto a considerar en esta IA es que solo almacenará las imágenes que generes durante siete días, por lo que te recomendamos que las descargues lo más pronto posible.

posible para no extraviarlas.

Imagen del panel de creación de la IA generadora de imágenes StableDiffusion Web en la que se observa una obra de 'un oso de peluche rosa con armadura medieval de estilo barroco' — Panel de creación de StableDiffusion Web

Nightcafe fue concebida por Angus Russell en noviembre de 2019 en Sydney, y a lo largo de los años ha evolucionado, alcanzando más de 5 millones de usuarios. Su denominación se inspira en la obra de Vincent Van Gogh, «El café de noche».

Aparte de producir imágenes basadas en un texto descriptivo, este recurso proporciona la posibilidad de compartirlas con la comunidad, permitiéndote lucir la creación que has realizado junto a Nightcafe.

Imagen generada con Nightcafe mostrando un oso blanco hecho de nubes durmiendo en un cielo azul — Imagen generada con Nightcafe bajo la descripción «Sleeping bear of cloud»

La plataforma te proporciona 5 créditos gratuitos, y cada imagen generada consume un crédito. Una vez tengas tu diseño, tendrás la opción de compartirlo para que otros usuarios lo disfruten e inspiren.

En la posición número doce, encontramos nuevamente una IA creada por Stability AI y fundamentada en su modelo Stable Diffusion. Sin embargo, Stable Doodle ha sido desarrollada a partir de una versión optimizada de este modelo combinada con T21-Adapter, una solución de control condicional.

La característica distintiva de Stable Doodle es que permite generar imágenes basadas en bocetos realizados por el usuario. Asimismo, es gratuita y puedes decidir si deseas registrarte en la herramienta o no. Eso sí, si optas por no crear una cuenta, tendrás un límite de aproximadamente 5 usos diarios.

Esta tecnología es capaz de analizar el contorno del dibujo y producir una imagen con resultados profesionales. Además, el boceto se complementa con una pequeña descripción o instrucciones escritas.

, que deberán ser presentadas en inglés. Asimismo, hay la opción de elegir entre 14 estilos artísticos para aplicarlos a tu creación y obtener resultados más precisos.

El panel de resultados de Stable Doodle presenta el boceto que dibujamos y las 3 imágenes generadas por la IA a partir de este — Panel de resultados de Stable Doodle

Una vez que se hayan completado todos los campos requeridos, la IA produndirá tres imágenes y ofrecerá la oportunidad de descargarlas todas en alta resolución. Las creaciones que descargues contendrán una pequeña marca de agua en la esquina inferior derecha, indicando que han sido elaboradas con esta inteligencia artificial.

Imagen de una serpiente sosteniendo un paraguas mientras llueve generada por la IA creadora de imágenes Stable Doodle — Imagen generada con Stable Doodle bajo la descripción «a snake holding an umbrella while it is raining and puddles form on the ground»

De manera similar al caso anterior, este modelo también ha sido desarrollado por Stability AI. Se trata de una versión optimizada de Stable Diffusion 2.0 que, al igual que otros productos de la empresa desarrolladora, es de código abierto.

Stable Diffusion XL ha sido entrenado con tres veces más parámetros que sus antecesores. Esto le proporciona una mayor capacidad de comprensión e interpretación, lo que le permite entender mucho mejor las instrucciones que se le ofrecen. Entre las mejoras que incorpora Stable Diffusion XL, podemos resaltar las siguientes:

Nuevas texturas, estilos y optimizaciones para crear manos y rostros más vívidos y bien definidos.
Incorporación de texto genuinamente legible y comprensible en las imágenes.
Amplia variedad de perspectivas.
Colores más saturados.
Fusión de tonalidades para generar sombras, brillos y contrastes más auténticos.

A diferencia de otros modelos de la lista, este no tiene una página web propia para su uso, sino que se ha integrado en Dreamstudio. También puede ser posibleprobarlo en la página de Stability AI Clipdrop de manera gratuita o descargar la API e instalarla en una computadora. De igual forma, se ha anunciado su accesibilidad en SageMaker y Bedrock de Amazon Web Services.

Al emplearlo en Clipdrop, se nos brinda la opción de realizar ciertos ajustes al momento de generar nuestra imagen. En primer lugar, podemos escoger un estilo artístico entre 14 disponibles, o decidir que no deseamos ninguno en particular. También se nos permite definir las dimensiones y proporciones de la obra.

Imagen generada desde Clipdrop con Stable Diffusion XL — Imagen generada con Stable Diffusion XL bajo la descripción «a happy elf wearing clothes made of flowers dances on a mushroom with a dragonfly» y con el estilo «Fantasy Art»

Cómo formular buenos prompts

Conseguir que la IA represente las ideas que surgen en nuestra mente puede ser un desafío al inicio, pero se basa en la práctica y en perfeccionar nuestras habilidades comunicativas.

La correcta construcción gramatical es extremadamente importante. Así como para comunicarnos entre nosotros necesitamos organizar nuestras oraciones de manera adecuada, para obtener mejores resultados con estas herramientas es lo mismo. Por otro lado, ten presente que todo lo que no se especifique será un aspecto sobre el cual la IA podrá ejercer su creatividad. A veces esto puede ser interesante, pero otras veces puede dar lugar a resultados no deseados. Por ello, es esencial tener claro lo que buscamos y cómo hacerlo explícito.

Además de describir los elementos que integran la escena, deberás proporcionar contexto y detalles sobre estilo, color, técnica pictórica, etc. Por ejemplo, no es igual solicitar a la IA que realice una imagen de «un dragón amarillo hecho de nubes» que pedir «un dragón amarillo sonriente hecho de nubes flotando sobre un jardín de cerezos en flor. El dragón se muestra de frente, en el centro de la imagen, y se puede ver su cuerpo completo. La luz es cálida, los colores son pastel, estilo pixar, alta definición».

Asimismo, recuerda la relevancia de indicarle a la herramienta la proporción de las imágenes. Algunas cuentan con opciones manuales, otras tienen menos flexibilidad en este aspecto y en algunas se puede especificar en el propio prompt.

Imagen elaborada con la IA generadora de imágenes DALL-E3 en GPT4 de un dragón amarillo sonriente formado por nubes sobre un jardín de cerezos — Imagen producida con Dalle-3 en GPT4 bajo la descripción: «crea una imagen rectangular, más ancha que alta, de un dragón amarillo sonriente formado por nubes flotando sobre un jardín de cerezos en flor. El dragón se presenta de frente, centrado en la imagen, y se observa su cuerpo completo. La iluminación es cálida, empleando tonos pastel, estilo pixar, altísima definición»

Por otro lado, es fundamental indicar que muchas IAs comprenden mejor el inglés que los demás idiomas. Por lo tanto, traducir los prompts puede ser un método para obtener resultados más precisos.

Finalmente, deseamos evidenciar cuán lejos han llegado estas herramientas en cuanto a la calidad de las obras que producen. Para ello, tomamos la antigua imagen de cubierta de este artículo y la subimos a GPT4 solicitándole que, utilizando Dalle-3, generase una nueva versión, con mayor detalle y un enfoque más realista.

Proporcionamos las siguientes instrucciones: «Voy a enviarte una imagen en la que se observa a un pequeño mono sentado al lado de una máquina de escribir. ¿Podrías reinterpretarla para crear una versión más moderna, profesional y de alta calidad? Quisiera que tuviera un estilo realista, que se viera simpática y agradable. Además, deseo que el papel que salga de la máquina de escribir, en lugar de un texto, presente un dibujo, representando las IAs generadoras de imágenes a partir de texto».

A la izquierda se observa una imagen generada con Dreamstudio en septiembre de 2022 bajo la descripción «A monkey typing on a typewriter, oil painting». A la derecha aparece una nueva versión de esta imagen, creada con Dalle-3 en GPT4 en febrero de 2024, bajo las instrucciones «Voy a adjuntarte una imagen en la que se ve a un pequeño mono sentado junto a una máquina de escribir. ¿Puedes reinterpretarla para crear una versión más moderna, profesional y de calidad? Me gustaría que tuviese un estilo realista, que resultase simpática y agradable. También quiero que el papel que salga de la máquina de escribir, en vez de un texto, muestre un dibujo, representando las IAs generadoras de imágenes a partir de texto» — Izquierda: imagen producida con Dreamstudio en septiembre de 2022 bajo la descripción «A monkey typing on a typewriter, oil painting» / Derecha: nueva versión elaborada con Dalle-3 en GPT4 en febrero de 2024

Como puedes observar, el resultado es considerablemente más profesional, los trazos son más definidos, la representación del mono y de la máquina de escribir es más precisa y realista, se incorporan elementos de fondo que enriquecen la escena y los colores y contrastes son más vivos.

Si deseas aprender más, recuerda que una referencia como OpenAI brindó en su momento consejos para obtener los mejores prompts al utilizar este tipo de herramientas.

Foto: generada mediante GPT4