Nova IA da Microsoft cria vídeos realistas a partir de imagens; confira
A Microsoft anunciou sua mais nova ferramenta de inteligência artificial, o . Ela é capaz de pegar imagens estáticas de rostos humanos e transformá-las em clipes animados, com resolução de 512 x 512 pixels e até 40 quadros por segundo.
O modelo processa a imagem e um clipe de áudio de pelo menos um minuto, que pode ser um discurso ou uma música. A partir disso, ele cria um vídeo que não apenas faz a sincronização de lábios de forma precisa, mas reproduz microexpressões faciais de maneira fiel.
Um dos vídeos de demonstração que mais fizeram sucesso na internet mostra uma imagem do , um durante uma entrevista no talk show do apresentador americano Conan O’Brien.
Microsoft Just Changed the Game!Experience VASA-1's stunning photo realism. Here are 10 mind-blowing examples: 1.— MagicHustler (@MagicHustler_)
Microsoft não vai liberar VASA-1 ao público
Embora a ferramenta desperte curiosidade, a Microsoft não tem planos de liberá-la para o público. A ideia, a princípio, é usar o VASA-1 apenas para fins de pesquisa.
A empresa diz ter preocupações com os possíveis impactos negativos que o modelo de geração de deepfakes pode ter. Em comunicado, a companhia afirmou que o propósito da ferramenta não é enganar. Porém, reconhece também que, caso libere para um público mais amplo, não poderá controlar o uso indevido da ferramenta. Entre as preocupações está a geração de vídeos falsos de pessoas, que tenham prejuízos na vida real.
A postura da Microsost é bastante parecida com a da OpenAI com o Sora, ferramenta de geração de vídeos ultrarrealistas com base em comandos de texto. A “mãe do ChatGPT” não lançará o modelo para todas as pessoas e estuda ao lado de especialistas em IA possíveis aplicações que gerem benefícios à humanidade.