Desde el lanzamiento del primer modelo de texto a voz (TTS), los investigadores han buscado formas de mejorar la forma en que estos sistemas generan voz. El último modelo de microsoftVALL-E representa un importante paso adelante en este sentido.
Solo recordemos cómo hace unos días Microsoft ya ha anunciado su idea de integrar ChatGPT en sus principales soluciones como Binglo cual se espera para el primer trimestre de 2023. Además, todo indica que Microsoft también estaría desarrollando una forma de integrar ChatGPT con su suite ofimática de programas Office.
Sin embargoentra en juego un nuevo actor: el herramienta VALLE. El jueves, los investigadores de Microsoft anunciaron este nuevo modelo de AI de texto a voz que puede simular la voz de una persona cuando se le da una muestra de audio de tan solo tres segundos.
Una vez que aprenda una voz específica, VALL-E puede sintetizar el audio de esa persona diciendo cualquier cosa y hacerlo de forma que intente conservar el tono de la persona que habla.
Así funciona el nuevo AI TTS de Microsoft: VALL-E
Microsoft llama a esto herramienta como un “modelo de lenguaje de códec neuronal”y se basa en una tecnología llamada EnCodec, que Meta anunció en octubre de 2022. A diferencia de otros métodos de texto a voz que normalmente sintetizan el habla a través de la manipulación de formas de onda, VALL-E genera códigos codec de audio a partir de indicaciones textuales y acústicas.
Básicamente, analizar cómo suena una personadesglosa esa información gracias a EnCodec y usa datos de entrenamiento para hacer coincidir lo que ha aprendido sobre cómo sonaría esa voz si pronunciara otras frases fuera de la muestra dada.
Microsoft entrenó las capacidades de síntesis de voz de VALL-E con una biblioteca de audio, creada por Meta, llamada LibriLight. Contiene 60.000 horas de habla inglesa de más de 7.000 hablantesen su mayoría extraídos de audiolibros de dominio público de LibriVox.
En el sitio web de ejemplo de VALL-E, Microsoft ofrece docenas de muestras y audio del modelo de IA en acción si quieres echarle un ojo. Dentro verás varias opciones: “Speaker Prompt” es el audio de tres segundos que VALL-E se da a imitar; “Ground Truth” es una grabación preexistente de ese mismo hablante diciendo una frase en particular con fines comparativos.
Por otro lado, «Baseline» es un ejemplo de síntesis proporcionada por un método convencional de síntesis de texto a voz, y la muestra «VALL-E» es el resultado del modelo VALL-E.
Sus creadores ya están considerando que VALL-E pueda usarse para aplicaciones de texto a voz de alta calidad, edición de voz, cambiar una grabación de una persona a partir de una transcripción de texto (hacer que diga algo que no dijo originalmente). ) y creación de contenido de audio cuando se combina con otros modelos generativos de IA como GPT-3.
Esta nota es parte de la red de Wepolis y fué publicada por Oliver Roberts el 2023-01-10 11:30:00 en:
Link a la nota original
Palabras clave:
#nueva #Microsoft #simula #voz #cualquier #persona #con #segundos #audio #Latino #News