Tecnología

Innovadoras Herramientas que Transformarán Nuestro Encuentro con la IA

OpenAI ha revelado la implementación de nuevas funcionalidades de voz e imagen en ChatGPT. Estas características permitirán a los usuarios interactuar directamente con ChatGPT, mostrarle imágenes para obtener respuestas y mantener diálogos más complejos. Los usuarios de los planes Plus y Enterprise podrán disfrutar de estas funcionalidades que transformarán la manera en que nos comunicamos con esta IA generativa en las próximas semanas.

Asimismo, la implementación de estas funcionalidades se lleva a cabo con un enfoque claro en la seguridad y la utilidad, ya que OpenAI reconoce los retos y peligros potenciales asociados con la voz y la imagen en la IA.

Realiza conversaciones orales con ChatGPT gracias a sus funcionalidades vocales

En cuanto a la voz, OpenAI ha decidido enfocarse primordialmente en el chat de voz, lo que indica que las capacidades de diálogo por voz están concebidas para ser seguras y útiles para los usuarios en situaciones como solicitar información, narrar historias o resolver dudas.

Ahora los usuarios podrán solicitar a ChatGPT una narración para contar antes de dormir, discutir un tema o simplemente entablar una conversación. Este nuevo nivel de interacción está diseñado para hacer que la experiencia sea más personalizada y accesible.

Para comenzar a utilizar la voz, simplemente dirígete a la Configuración en la aplicación móvil, selecciona «Nuevas funciones» y activa las «Conversaciones de voz». Luego, escoge una de las 5 voces disponibles para tu asistente. La tecnología subyacente se basa en un modelo de conversión de texto a voz que puede generar audio que imita la voz humana de manera realista a partir de texto y una breve muestra vocal. Las voces empleadas en la función de voz han sido elaboradas en colaboración con actores de voz profesionales.

Esta innovación también se fundamenta en Whisper, el sistema de reconocimiento de voz de código abierto desarrollado por OpenAI, que transcribe tus palabras habladas en texto. A través de esta integración vocal, ChatGPT proporciona una experiencia más rica y natural para los usuarios, permitiéndoles mantener diálogos con la IA.

Además, OpenAI también está implementando esta tecnología de voz en asociación con organizaciones externas, como Spotify. Un ejemplo citado es el piloto de la función de traducción de voz de Spotify, que permite a los podcasters ampliar su audiencia mediante la traducción de sus programas a diversos idiomas utilizando las voces de los propios podcasters.

Nuevas funcionalidades de comprensión de imágenes

La otra gran incorporación a ChatGPT es su capacidad para interpretar y discutir imágenes. Ahora puedes mostrarle una o varias imágenes y recibir respuestas útiles según lo que visualiza. Esto tiene aplicaciones infinitas, desde solucionar problemas técnicos hasta planificar comidas con lo que tienes en la despensa o analizar gráficos complejos para extraer información relevante para tu trabajo.

Por ejemplo, en la imagen siguiente, ChatGPT evalúa la fotografía subida por el usuario ante la consulta «ayúdame a ajustar el asiento de mi bici». A continuación, le proporciona instrucciones para lograrlo en función del modelo de bici de la fotografía, indicándole incluso en qué parte de la imagen puede encontrar la pieza a la que se refiere.

Imagen que ilustra las novedosas capacidades de interpretación de imágenes de ChatGPT

La interpretación de imágenes en ChatGPT se fundamenta en los modelos multimodales GPT-3.5 y GPT-4, que ejercen su habilidad de razonamiento verbal sobre una extensa gama de imágenes, abarcando fotografías, capturas de pantalla y archivos que combinan texto con imágenes. Esta funcionalidad promete hacer las interacciones aún más enriquecedoras y útiles.

Adicionalmente, para esta característica, OpenAI ha priorizado su funcionalidad y seguridad. Se han implementado estrategias técnicas para restringir la capacidad de ChatGPT para examinar y formular afirmaciones sobre personas en las imágenes, respetando de esta manera la privacidad de los usuarios. Esto implica que la IA no llevará a cabo análisis intrusivos o inadecuados de las personas en las imágenes que compartan los usuarios, asegurando un uso seguro y ético de la tecnología de imágenes.

Foto: Depositphotos

 

Icrono Magazine

¡Hola! Soy Icrono Avatar, responsable de todo el contenido de ICRONO Magazine. Gracias a todo mi equipo de ICRONO Real Time Marketing, conseguimos haceros llegar todas las novedades y tendencias digitales. ¡Puedes sugerirnos cualquier mejora en los comentarios de los articulos!
Botón volver arriba