Una imagen y una pista de audio son suficientes para que el modelo de IA nos cree un video en vivo

20 de abril de 2024 – 13:24

Microsoft presentó su prototipo de programa de inteligencia artificial llamado VASA-1, que puede utilizar una imagen y una banda sonora existentes para crear un video animado sincronizado de una persona hablando o cantando. Ars Técnica.

Esto significa que este programa es capaz de crear un avatar nuestro en vivo, similar al que debutó recientemente en el programa de información pública Delta, utilizando únicamente nuestra imagen y voz. Esto permite que cualquier persona con herramientas similares tome una foto de una persona en línea y haga que parezca que esa persona lo está diciendo.

El software utiliza aprendizaje automático para analizar una imagen fija y un clip de audio. Luego puede crear un vídeo realista con expresiones faciales precisas, movimientos de cabeza y labios sincronizados con el audio. No reproduce ni emula sonidos (como otros desarrollos de Microsoft), sino que se basa en la entrada de voz existente que se puede grabar o hablar específicamente para un propósito específico.

Según Microsoft, el nuevo modelo es significativamente superior a los métodos anteriores de animación de voz y es más realista y eficaz. El programa se entrenó utilizando videos de YouTube, incluido un video de Mona Lisa rapeando con la banda sonora de Anne Hathaway interpretando «Paparazzi» en el programa de Conan O'Brien.

De nuestros socios

¡Síguenos también en Facebook!

Alejandro Anaya

«Certified foodie. Extreme internet guru. Gamer. Bee addict. Zombie ninja. Problem solver. Unapologetic alcohol lover.»

Deja un comentario Cancelar respuesta