
Microsoft está involucrada en el desarrollo de una innovadora herramienta de IA capaz de convertir texto en audio e imitar grabaciones. Esta ha sido denominada Vall-E y se fundamenta en un modelo de lenguaje TTS (text to speech).
Es bien sabido que Microsoft está fortaleciendo su compromiso con la inteligencia artificial, el coloso tecnológico ya ha incorporado modelos como GPT-3 o Dalle-2 en plataformas como Azure. Con esta nueva iniciativa estaría avanzando un paso más, al tiempo que enriquece las funcionalidades de sus productos: texto, imagen y, ahora, voz.
Funcionamiento de Vall-E
Vall-E es un modelo de lenguaje destinado a la síntesis de texto a voz que también tiene la capacidad de replicar grabaciones de voz e imitarlas. Ha sido entrenado con 60.000 horas de habla en inglés y, según declaraciones de Microsoft, supera a desarrollos anteriores al mostrar una rapidez de aprendizaje superior. Puede reproducir la voz de una grabación de apenas tres segundos, conservando el tono y la cadencia del orador original.
Tal como indican desde Microsoft, «Vall-E genera los códigos discretos de códec de audio basados en instrucciones de fonemas y códigos acústicos, que corresponden al contenido destinado y a la voz del orador«. Además, «Vall-E podría conservar la emoción del hablante y el ambiente acústico del mensaje durante la síntesis«.
En resumen, este modelo es capaz de recoger la información del texto y del audio y convertirla en una narración que transmita lo que se dice, pero que también conserve el contexto y reproduzca matices emocionales. De esta manera, Vall-E tiene la capacidad de crear voces artificiales que expresen alegría, enojo, tristeza, cansancio, entre otros.

Finalmente, Microsoft ha publicado en GitHub una demostración de esta herramienta, donde no solo proporciona información acerca de su funcionamiento, sino que también muestra ejemplos de audio que evidencian sus capacidades. Te invitamos a explorar esto mientras aguardamos con expectativa nuevas noticias sobre el avance de esta prometedora IA.
Sam, uno de los precursores de Vall-E
Como mencionamos, Vall-E no es el primer emprendimiento relacionado con el modelo de lenguaje TTS que Microsoft ha diseñado. Hace más de veinte años, en 1998, la empresa de tecnología lanzó Sam (Speech Articulation Module), una herramienta que ofrecía reconocimiento y síntesis de voz integrada en Windows XP. Además, este sintetizador poseía la capacidad de, al convertir texto a voz, generar sonidos naturales que se adaptaran a la entonación y las emociones de las voces humanas.
Imagen generada en Dalle-2