Fundado em 11/10/2001
porto velho, domingo 23 de fevereiro de 2025
MUNDO: Uma equipe de pesquisadores da Microsoft Research Lab, em Pequim, na China, apresentou o VASA-1, um novo modelo de inteligência artificial (IA) capaz de gerar vídeos realistas em tempo real de rostos humanos a partir de uma única foto e clipe de áudio. O resultado são vídeos curtos que dão à imagem estática movimentos, expressões faciais e sincronia labial extremamente convincentes, capazes de enganar um espectador menos atento.
A tecnologia também é capaz de animar imagens artísticas, como personagens fictícios e obras de arte, além de gerar falas em qualquer idioma e até mesmo cantorias. Para a geração de fala, é preciso incluir um clipe de áudio da voz desejada (que pode ser do indivíduo da foto ou não).
A ferramenta também dá ao usuário controle de expressões faciais, direção do olhar, distância da cabeça, ângulo da câmera e outros ajustes granulares. Tudo isso pode ser manipulado em tempo real, como se fosse a tela de criação de personagem de um videogame. Os vídeos gerados possuem resolução de 512×512 pixels e alcançam até 40 quadros por segundo.
Uma demonstração da ferramenta em funcionamento pode ser vista no site da Microsoft. Veja também no vídeo abaixo.
🚨 Microsoft Research just announced VASA-1.
— Alvaro Cintas (@dr_cintas) April 18, 2024
All it needs is a picture and audio to create these talking videos!
Look at this real-time demo: pic.twitter.com/dmEIWid3XE