Este é o cara que criou os deepfakes de Bolsonaro e Moro em situações inusitadas
Os vídeos deepfake, que substituem rostos a partir de uma inteligência artificial, não são novidade para quem acompanha o noticiário de tecnologia. O que é novo, porém, é ver figuras brasileiras transformadas em vídeos bem humorados com personagens como Chapolin Colorado, e num nível de realismo impressionante. O que entrega a montagem, é claro, são os cenários absurdos das paródias criadas pelo jornalista, editor de vídeos e estudante de direito Bruno Sartori, de 30 anos.
No dia 17 de maio, Sartori uma montagem em que o presidente Jair Bolsonaro incorpora o Chapolin em seu discurso nos Estados Unidos. A repercussão foi quase imediata e, hoje, quase dois meses depois, a versão original no Twitter soma mais de 600 mil visualizações — sem contar as visualizações no perfil do Instagram, Facebook e outras reproduções em contas de terceiros. Seu perfil passou de cerca de 300 seguidores mais mais de 27 mil desde então.Criticavam os discursos aleatórios de Dilma e elegeram o BOLSONARO? — Bruno Sartori (@brunnosarttori)
O Gizmodo Brasil conversou com Sartori, que mora no interior de Minas Gerais, em Unaí, e sempre curtiu fazer humor com a política local. Ele conta que se inspirou muito em Maurício Ricardo, e já brincava de fazer charges e paródias desde a adolescência, quando acompanha o trabalho do cartunista do ainda na época da internet discada, em uma lan house. Abaixo, um resumo do bate papo com Sartori, que foi resumido e editado por razões de clareza.
Gizmodo Brasil: Qual foi a sua trajetória e como você começou a trabalhar com os deepfakes?
Bruno Sartori: Edito vídeos desde meus 15 anos de idade, comecei a produzir conteúdo de uma forma bem amadora com a ajuda do cartunista Maurício Ricardo, do Charges.com.br. É um dos pioneiros na internet em relação a animação e comecei me inspirando nos trabalhos dele, gostava pra caramba.
Bruno Sartori, o criador das paródias com deepfake
Foi um trabalho sendo feito meio que na brincadeira, porque a cidade é pequena e não tem curso dessas coisas. Fui aprendendo com tutoriais na internet. Com o tempo, passei a fazer paródias na minha cidade, sempre retratando a política da cidade. E aí eu fui brincando com a troca de rostos no After Effects, usando pontos pintados na face para fazer o tracking e substituir depois com uma máscara. Foi o meu primeiro “deepfake”.Navegando na internet eu vi que tinha essa tecnologia de trocar o rosto e fui acompanhando. Quando eu vi pela primeira vez, nem tinham lançado para os usuários, eu só acompanhava um cara numa comunidade do Reddit. Algum tempo depois ele lançou, se eu não me engano o Fake App, que era meio ruim, mas na época já impressionava.
Então eu pensei ‘preciso disso para os meus trabalhos’. Juntei o meu interesse com as paródias e comecei a criar esses vídeos.Gizmodo Brasil: Quais são as ferramentas que você usa para criar os deepfakes?
Sartori: Uso bibliotecas de código-aberto e a gente tem um monte de bibliotecas como o FaceSwap, FakeApp, DeepFace Lab, além de fóruns que distribuem esses conteúdos. Minha abordagem é muito misturada. Porque às vezes uma biblioteca tem um código melhor para fazer um corte, outros para melhor para treinar, outros para mesclar os rostos. Eu fui adaptando.
Posso optar para ter mais nitidez, mas esperar mais para treinar com uma determinada biblioteca e aí a partir de tutoriais no YouTube — eu não programo, mas você vai fuçando e consegue deixar do jeito que você precisa. O deepfake é feito basicamente com essas bibliotecas de código aberto modificadas.Gizmodo Brasil: Como funcionam essas ferramentas?
Sartori: Eu falo treinar porque é o termo mais usado na área. Mas são cálculos matemáticos, eles dão um número para cada pixel e de acordo com determinada posição, aquele número vai variar. A gente fala que está treinando para o público leigo entender.
A biblioteca vai calculando, se ela errar, ela vai fazer de novo e quanto mais cálculo, mais próximo do real. Se um rosto for muito angulado e eu só tiver uma cena de frente, o app não vai conseguir fazer esse efeito.Gizmodo Brasil: Você disse que aprendeu a fazer os deepfakes sozinho. Demorou para você aprender a fazer?
Sartori: Demora para aprender porque são muitas configurações que você precisa fazer, você tem que acertar a configuração especificamente para a sua placa de vídeo. E aí não tem tutoriais exatos para cada placa de vídeo.
O primeiro rosto eu levei 30 dias para chegar num resultado aceitável, e aí se você for olhar no meu canal, os resultados aceitáveis são terríveis comparados com os atuais. Foi difícil acertar essas configurações, saber o que eu poderia usar, qual material era ideal. No começo eu não sabia o que era ou não legal usar e precisei fazer vários testes, usando muita imagem diferente, vi que não dava certo determinados tipos de cenas, misturar muitas cenas de frente com perfil… Então é muito tempo de testes até chegar num resultado que fica realmente bacana. Antes era aleatório demais, saía muita careta, muito olho vesgo… Então acabava ficando mais engraçado não pela troca de rostos, mas pelas caretas. Isso há um ano e meio atrás.Gizmodo Brasil: Quais são os conhecimentos necessários para fazer um bom deepfake? É algo acessível para todos?
Sartori: Como edito vídeo há um tempo, não achei tão difícil. Creio que uma hora ou outra todo mundo vai aprender. É igual ao Photoshop: com o tempo, as pessoas aprenderam a fazer montagens. O usuário não precisa mais ter o conhecimento em programação, mas ele precisa ter uma orientação inicial para saber fazer.
E tem também uma limitação técnica que não é qualquer placa de vídeo que pode fazer. Uso uma Nvidia 1080, que é uma ótima placa de vídeo. Se o usuário não tiver uma placa potente, ele não vai conseguir processar esses dados. Além disso, não tem uma interface gráfica para o usuário. São apenas scripts que precisam ser rodados e você precisa rodá-los e direcioná-los. Não precisa saber programar, você precisa ter uma orientação para saber o que fazer, quais são as linhas de comando. Isso você encontra em tutoriais na internet. Ter conhecimento em edição de vídeo e pós-produção me ajudou muito. E o deepfake sozinho vai apresentar falhas, vai apresentar embaçamento. Os mais perfeitos que você vê, eles passaram por uma pós-produção. Uso o After Effects para fazer as correções.Gizmodo Brasil: E quanto tempo você leva para criar um vídeo?
Sartori: O tempo adequado para treinar um rosto é de três a quatro dias, mas nem sempre eu espero tudo isso. Um vídeo que eu soltei que mostra o Glenn Greenwald ouvindo os áudio do Deltan Dallagnol, treinei apenas por 24 horas. Se você olhar, os resultados não são perfeitos — ainda precisei trabalhar bastante na pós. Precisei acelerar o processo para não perder o timing.
Tem vídeo como aquele de As Branquelas que é uma cena extensa, você tem mais trabalho para chegar num bom resultado. Eu não tinha cenas de perfil do Bolsonaro, tive que treinar, foram três dias de treinamento. Então varia muito de vídeo para vídeo. Pode demorar um dia, pode demorar quatro.E 90% do trabalho é você buscar imagem nítida, imagem clara, imagem com boa qualidade.Ver essa foto no Instagram
Gizmodo Brasil: Você utiliza fotos das personalidades para criar os vídeos?
Sartori: O adequado é coletar fotos, mas é um trabalho muito longo. O deepfake começou com fotos. Hoje, já atualizaram para vídeos.
Eu busco vídeos, divido eles em vários quadros, milhares de quadros, são 24 quadros por segundo em um vídeo, geralmente. Depois eu preciso passar num programa que vai detectar cada um dos rostos do material e vai fazer o corte desses rostos. Além disso, passo em outro programa que detecta os rostos parecidos e vou reduzindo os quadros para uns dois três mil quadros. Às vezes muitas imagens são apagadas, então preciso buscá-las novamente e recolocar no treinamento. Depois disso, preciso fazer outra busca longa no YouTube para conseguir um vídeo que eu vou usar para trocar. A da Rainha da Inglaterra, em que eu coloquei o Bolsonaro, fiquei muito impressionado porque foi muito difícil encontrar um vídeo bom dela.Ver essa foto no Instagram
Gizmodo Brasil: Como é o seu processo criativo para decidir quais serão as suas montagens?
Sartori: Tem coisa que é muito óbvia e essas ideias pintam para todo mundo, acho que o fato de eu ter trabalhado com charges e paródias me ajudam a ter essas sacadas.
Essa última que eu fiz do Glenn como Chapolim Colorado, em que ele tá ali escutando os áudios, acho que muita gente teve essa ideia, é uma coisa bastante óbvia, é uma piada que tá na cara. É uma cena que todo mundo conhece e que ligariam uma coisa com a outra. E assim, apesar de eu ter tido a ideia, muita gente me mandou também.Já tenho imagens do momento em que ouvia as conversas do Telegram do e posso provar: — Bruno Sartori (@brunnosarttori)O Bolsonaro disse em uma ocasião que queriam fazer dele a rainha da Inglaterra e tá na cara que eu vou colocar ele na rainha. Então a sacada não é só de uma pessoa, é de um monte de gente. Meu trabalho é parecido com o de um cartunista. O cartunista analisa o dia e faz uma charge. Eu só uso uma tecnologia para fazer um tipo de charge animada.
Gizmodo Brasil: Você se preocupa com as possíveis aplicações dos deepfakes?
Sartori: A gente tá na era da pós-verdade, a palavra do ano em 2017, então as pessoas acreditam no que elas querem. Não importa se o fato é real ou não. Quem vai acreditar que o Bolsonaro se vestiu de chapolim colorado para gravar um vídeo daquele? Ou de rainha da Inglaterra? São coisas muito óbvias.
Mas podem existir coisas não tão óbvias. Podemos ter no futuro vídeos do Bolsonaro ou de qualquer outro político declarando guerra a um outro país. Mas as pessoas precisam se atentar ao absurdo da situação, que vão além da realidade. Porém, mesmo que se mostre para as pessoas que aquilo não é verdade, elas vão acreditar no que elas querem. Eu não sei o que futuro nos espera. Quando eu conheci a tecnologia estavam usando para pornografia, eu pensei comigo “cara eu não acredito que as pessoas estão usando para pornografia, tanta coisa legal e mais legal que dá pra fazer com isso”.O que mais me assusta é o pornô de vingança. Já tem muito isso, né? Isso poderia ser bastante preocupante no futuro. Já me procuraram para fazer esse tipo de coisa e eu recusei, não tem a menor condição. Acho que as pessoas vão levar primeiro para esse lado. Depois, o que eu acho mais preocupante é a questão política.
Mas vai chegar um ponto que as pessoas vão dizer que isso aí é falso, não é real. Como por exemplo já está acontecendo. Ganhei notoriedade num momento que eu acho um pouco infeliz, porque a gente está tendo as revelações do The Intercept e me preocupa quando sair os conteúdos originais, as pessoas vão dar essas desculpas, que o conteúdo foi manipulado, que as vozes são falsas.
Tem gente já levantando teorias de que a voz do Dallagnol é falsa, que tá meio robótico. E assim, qualquer pessoa com bom senso ouve aquilo ali e vê que não é falso. Quando chegou o Photoshop, todo mundo acreditava. Mas chegou um ponto que qualquer imagem hoje, até real, passa pelo Photoshop. Vai chegar um ponto que a edição vai se popularizar muito e nem áudio, nem vídeo será prova de nada. Será muito difícil de detectar, só por outras inteligências artificiais.Gizmodo Brasil: Os seus vídeos são bem humorados, mas uma parcela do público pode se incomodar com as piadas. Como você tem lidado com isso?
Sartori: A crítica é natural. As pessoas estão muito extremistas em relação à política. Independente de qual espectro político eu brinque num vídeo, o outro lado vai jogar pedra. Por incrível que pareça, ainda não estou recebendo tantas críticas.
Pode ser que as pessoas do outro lado também estejam vendo graça, porque são situações que não tem porque brigar. As pessoas estão achando graça, acho até que se o Bolsonaro tiver visto deve ter achado engraçado. Mas acho que as críticas vão aumentar, porque o alcance está aumentando. E como alguns dos vídeos criticam um governo que é declaradamente de direita, as pessoas já te colocam como esquerda. Isso é automático. E quando são vistos como vídeos de esquerda, o pessoal de esquerda geralmente aplaude. Mas eu tenho visto, por exemplo, gente de esquerda criticando. Já vi muitos grupos feministas gostando, aplaudindo, enquanto outras pessoas dizem que é machista, que é misoginia colocar o rosto do Bolsonaro numa mulher, mas as pessoas não entendem que o que é engraçado naquela situação não é o Bolsonaro estar no rosto de uma mulher, é o contexto da história, é ele dizer que querem fazer ele de rainha e ele ser feito de rainha. Já fui acusado até de homofobia por fazer alguns vídeos, como o do . Mas não é engraçado porque um homem está na cara de uma mulher, não tem nem sexualidade ali no meio, hora nenhuma aborda a sexualidade do Carlos. Me deixa triste porque geram comentários homofóbicos. É uma coisa que eu não tenho controle. Fico com a consciência mais leve porque não tenho como controlar o que as pessoas vão falar.