Como a IA clona a voz de celebridades para cometer crimes virtuais
O deepfake acaba de alcançar um novo nível: agora, trolls da internet usam IA (inteligência artificial) para fazer comentários racistas, misóginos e homofóbicos com clones da voz de celebridades.
O veio da ElevenLabs, startup de ex-funcionários do Google e Palantir que lançou uma plataforma de IA generativa de áudios no sábado (28). A equipe disse que encontrou um “número crescente de casos de uso indevido de clonagem de voz” e sugeriu formas de identificar esses casos.
Crazy weekend – thank you to everyone for trying out our Beta platform. While we see our tech being overwhelmingly applied to positive use, we also see an increasing number of voice cloning misuse cases. We want to reach out to Twitter community for thoughts and feedback! — ElevenLabs (@elevenlabsio)
Mais tarde, uma reportagem da revista descobriu que membros do fórum 4chan usaram o produto para gerar vozes de famosos como Joe Rogan e Emma Watson para fazer afirmações racistas e outros materiais de cunho duvidoso – quando não criminosos.
Em um dos casos, a atriz que eternizou Hermione Granger nos cinemas lê uma seção de Mein Kampf. No livro, o ditador alemão Adolf Hitler defende suas ideias antissemitas e de supremacia branca.
Outro clipe mostra Rick Sanchez, da animação “Rick & Morty”. “Vou bater em minha esposa Morty. Vou espancá-la até a morte”, diz o áudio quase idêntico à voz de Justin Roiland, dublador original da personagem. Em 2020, Roiland da acusação de violência doméstica.
Em um dos posts do 4chan, havia um link para a plataforma Beta da ElevenLabs, o que sugere que o software foi o escolhido para criar as vozes.
Caminho fácil para deepfake
Em seu site, a startup afirma que a ferramenta é capaz de clonar a voz de qualquer pessoa a partir de uma amostra de, no mínimo, 60 segundos. Para isso, basta que os usuários se inscrevam no serviço e comecem a usá-lo. Outro recurso é a “clonagem profissional”, que diz ser capaz de reproduzir qualquer sotaque.
Apesar dos clipes de IA ainda estarem focados na voz de celebridades, a facilidade pavimenta o caminho para a criação de áudios tão realistas a ponto de criar (ainda mais) problemas por aí.
Na cultura deepfake, pessoas tornam-se atores pornôs ou fazem afirmações criminosas de forma tão convincente que parecem ser cenas reais. Mas tudo não passa de IA generativa: tecnologia que coloca o rosto (e, agora, a voz) de pessoas em lugares e situações onde nunca estiveram.
Em resposta, o ElevenLabs afirmou que, embora possa rastrear qualquer áudio gerado pelos usuários, busca maneiras de proteger o sistema contra a criação de deepfakes. Isso significa que, no futuro, a plataforma (hoje gratuita) pode exigir informações pessoais ou pagamento para executar a clonagem de voz. Outra possibilidade é que funcionários verifiquem a solicitação manualmente.