La IA de texto a voz de Microsoft puede imitar a cualquiera

Los investigadores de Microsoft anunciaron el modelo de IA de texto a voz VALL-E, que puede simular la voz de una persona real con solo una muestra de audio de tres segundos. De esta forma, conservando las entonaciones propias del hablante, reproduce cualquier material audio-textual, como si se hubiera escuchado el discurso de una persona en particular. Sus creadores prevén su uso como una aplicación avanzada para leer y editar texto, incluso con otros modelos generativos de IA como GPT-3, que genera el texto.

Redmond apunta a VALL-E como un modelo de lenguaje neuronal, basado en una red neuronal de compresión llamada EnCodec que Meta anunció el año pasado. A diferencia de otros procesos de texto a voz que funcionan mediante la manipulación de formas de onda, Microsoft Audio Codec crea símbolos a partir de texto seleccionado y muestras de señales de audio.

VALL-E esencialmente analiza las características del habla de una persona dada y divide la información utilizando EnCodec en componentes separados, «códigos fonéticos», para crear la forma de onda final. Además de imitar el tono del altavoz, también puede imitar el «ambiente acústico» de la muestra de sonido. Por ejemplo, si la muestra se corta de una llamada telefónica, reproduce las características acústicas y de frecuencia de la llamada telefónica.

Los investigadores de Redmond trabajaron con la biblioteca de audio proporcionada por Meta, que contiene más de 60 000 horas de habla en inglés de más de 7000 personas. Dado que para que VALL-E genere contenido realista y de alta calidad, la muestra de audio debe mostrar una coincidencia significativa con uno de los datos utilizados para el entrenamiento, por lo que se planea expandir la base de datos con datos adicionales en el futuro.

Debido a las infracciones, Microsoft no pone la prueba ni el código VALL-E a disposición de otros en este momento. Según su anuncio, la compañía seguirá sus propias pautas para los desarrollos relacionados con la IA en el futuro, y se está preparando un formulario separado para determinar si se ha generado un segmento de audio asistido por VALL-E. Proyecto fuera de línea en su página de GitHub Puedes escuchar cómo el algoritmo hace música: aún no es perfecto, y algunas pistas suenan como una máquina, pero hay algunos resultados realistas realmente aterradores.

Gabriel Lozano

Gabriel Lozano es colaborador de Teleorihuela.com y se dedica a informar sobre temas de actualidad que impactan a los lectores. Su trabajo abarca noticias, política, economía, tecnología, deportes, entretenimiento y estilo de vida. Se enfoca en ofrecer información clara, equilibrada y fácil de comprender, con atención a los acontecimientos más relevantes del momento. Su objetivo es acercar a la audiencia contenidos útiles, actualizados y de interés, manteniendo un enfoque informativo y cercano.

Entradas relacionadas

Deja un comentario Cancelar respuesta