Apesar de serem capazes de criar fotografias ultrarrealistas, os geradores de imagens via IA (inteligência artificial) não parecem ser muito bons em criar mãos.
É comum que plataformas como DALL-E, Midjourney e Stable Diffusion, coloquem mais dedos que o necessário ou duas mãos em um membro só, o que cria uma imagem bastante confusa.
Nós, do Giz Brasil, geramos as duas imagens de destaque deste texto (que você vê acima) no DALL-E, da OpenAI – e as mãos ficaram no mínimo… estranhas.
Mas existe um motivo para isso. De modo geral, esses sistemas de IA não recebem treinamento o suficiente para criar mãos tão detalhadas quanto fazem com os rostos.
Nos conjuntos de dados usados para treinar os sintetizadores de imagem, os humanos exibem menos suas extremidades, como explicou um porta-voz da Stable Diffusion para o . “As mãos também tendem a ser muito menores nas imagens de origem, pois raramente são visíveis em tamanho grande”, disse ele.
— no context memes (@weirddalle)
Por que isso acontece?
Como os sistemas de IA generativa recebem treinamento a partir de bilhões de imagens extraídas da internet, eles não entendem o que é uma “mão” e como ela se conecta com o corpo na anatomia humana.
Pelo contrário, o mais comum é que as mãos apareçam ou segurando algo ou fazendo algum gesto – mas nunca como simples mãos.
“Os programas entendem a ideia geral de uma mão, com palma, dedos e unhas. Mas nenhum deles realmente entende o que é a coisa toda”, explicou Peter Bentley, professor e pesquisador em Ciência da Computação na University College London, à .
Talvez dê para dar um desconto para as IAs: as mãos integram as partes mais difíceis das ilustrações, por exemplo. Leonardo Da Vinci, por exemplo, era conhecido por ter uma obsessão pelo formato das mãos humanas. Ele fez vários estudos para esboçar os membros com perfeição. Uma coisa é fato: as próximas IAs geradoras de imagens precisam fazer como o criador da Mona Lisa e gastar um tempinho a mais tentando entender esses membros humanos.