Em poucos anos, as trocas de face automatizadas baseadas em redes neurais deixaram de ser levemente convincentes para assustadoramente críveis. Mas, através de novas pesquisas da Disney, a troca de rostos está pronta para se tornar uma ferramenta legítima e de alta qualidade para estúdios de efeitos visuais que trabalham em grandes sucessos de Hollywood.
Um dos grandes desafios da criação de vídeos deepfake, como eles são conhecidos, é criar um banco de dados gigante de imagens faciais de uma pessoa — milhares de expressões e poses diferentes — que podem ser trocadas em um vídeo.
Quanto maior o banco de dados e quanto maior a qualidade das imagens, melhores serão as trocas de rosto (que na maioria das vezes são fotos de pessoas famosas) e geralmente são tiradas de fontes com resolução limitada. Mesmo um arquivo de vídeo 4K pode produzir imagens de rosto em baixa resolução, dada a aparência de pequenos rostos no enquadramento geral de uma foto.
Portanto, o primeiro passo para gerar bons vídeos deep fake é começar com uma fonte de alta qualidade. Em um novo artigo que está sendo apresentado no Simpósio Eurographics 2020 sobre renderização, intitulado (“Troca de rostos de alta resolução usando redes neurais para efeitos visuais”, em tradução livre), pesquisadores do Instituto Federal de Tecnologia de Zurique e do Disney Research Studios detalham várias novas inovações e abordagens para trocas de face automatizadas que produzem resultados com megapixels com qualidade e resolução suficiente para serem usados na produção de filmes.
O novo algoritmo criado pelos pesquisadores começa modificando o vídeo de destino para facilitar a troca de rostos. O movimento na filmagem da fonte é sutilmente estabilizado e suavizado para eliminar possíveis problemas, como lábio trêmulo que potencialmente poderia desencadear o processo de troca automatizada eu uma etapa posterior.
Os pesquisadores também aprimoraram várias outras etapas ao longo do caminho, incluindo a mistura da nova face no original através de técnicas de composição aprimoradas para melhor corresponder ao contraste geral. O algoritmo faz um trabalho muito melhor na geração de quadros intermediários necessários para criar resultados suaves, para que o novo rosto não parece pular quando a gravação alterada é reproduzida.
Todos os dias parece haver um novo uso de aprendizado de máquina que promete otimizar e acelerar uma tarefa que normalmente leva muito tempo para ser concluída. Desde que os primeiros vídeos de deepfake começaram a chegar à internet, artistas de efeitos visuais viram o potencial do trabalho feito por eles. Trocas de rosto não são incomuns na indústria de cinema e TV; muitas vezes, um dublê olha momentaneamente para a câmera, exigindo uma pós-produção extensa para garantir, mesmo por um breve momento, que a pessoa na tela se pareça exatamente com quem deveria.
A correção desses problemas geralmente requer refilmagens ou uma combinação de computação gráfica e composição, que é algo bem caro. Com essa nova pesquisa, as filmagens existentes poderiam ser usadas para treinar o algoritmo, que resolver esses problemas por conta própria.
Mas, embora artistas sobrecarregados de efeitos visuais e produtos de Hollywood preocupados com o orçamento possam comemorar a nova ferramenta, também tornará muito mais difícil detectar vídeos de deepfake que encontramos por aí. Não demorará muito tempo para as novas abordagens desta pesquisa encontrarem o caminho para as ferramentas de aprendizado de máquina existentes; nesse momento, podemos esperar uma nova onda de deepfakes inundando a internet — e agora há uma boa chance de que nós não saibamos quais são falsos ou não.