IAs não conseguem recriar mãos humanas de forma fiel. Mas por quê?
Mãos, pés e dedos humanos podem ser estruturas difíceis para a inteligência artificial entender. Entenda aqui o que dificulta a tarefa
Ainda que inteligências artificiais consigam criar imagens fiéis à realidade, inclusive de humanos que não existem, elas ainda têm muita dificuldade para reproduzir algumas coisas. E, nessa lista de fracassos, estão as nossas mãos. Duvida? É só ver a imagem abaixo.
Vale desenterrar estas fotos divulgadas no início do ano, geradas pelo aplicativo Midjourney. As imagens, que bombaram no Twitter, mostram pessoas em uma festa, e imitam o estilo de fotografias antigas.
Humans created . Now AI is creating humans? 🤔 Say hello to our newest virtual friends, generated with by Twitter user mileszim! 🤖👉 — Rediminds, Inc (@rediminds)
As fotos parecem realistas. Porém, em todas elas, os dentes, as mãos e dedos das pessoas ficaram bem esquisitos, o que chamou a atenção.
don't feel bad if you can't draw hands, even AI can't do it — pikat 🇭🇰 (@pikatl)
Meses depois do primeiro choque, plataformas como Midjourney, Stable Diffusion e DALL-E são capazes de gerar fotos cada vez mais realistas. Isso envolve copiar rostos de celebridades e substituir planos de fundo de imagens de forma transparente, entre vários outros milagres.
Mas o problema das mãos permanece. Afinal, por que a IA continua deixando as mãos tão deformadas? Tem alguns motivos, como vamos ver abaixo.
Complexidade das mãos humanas
Em um vídeo produzido pelo , é possível entender de forma didática alguns dos principais fatores que levam a essa limitação persistente da IA.
Para nós, parece algo simples. Mas, na verdade as mãos, pés e dedos humanos podem ser estruturas difíceis para a tecnologia entender. Isso se deve, em parte, à complexidade da anatomia humana, que dificulta a sua replicação em um modelo de IA. Cada dedo tem muitas articulações que devem ser capturadas com precisão para que a mão pareça natural. Ainda há detalhes a serem desenhados de poses de mão “relaxadas”, como vincos e dobras nas juntas, sombreamento da palma e assim por diante. E tudo isso muda conforme a posição da mão na imagem e a ação que a pessoa está desempenhando. Do comprimento e largura dos dedos às articulações do punho, a mão humana tem aproximadamente 30 pontos de variação geométrica. Por isso, o formato da mão de uma pessoa pode servir como uma identificação biométrica mais confiável do que suas características faciais, inclusive. Até mesmo os seres humanos têm dificuldade para ilustrar as mãos. Por essa e outras razões, a maioria das mãos dos desenhos animados apresenta apenas três dedos e um polegar, para facilitar o trabalho dos artistas visuais e designers, e dar um ar menos artificial.Erros nas mãos são muito perceptíveis
Existe também o fato de que qualquer “errinho” no desenho das mãos, por menor que seja, é muito perceptível. Um detalhe de um dedo retratado incorretamente já dá um ar estranho à imagem, perdendo o caráter humano e passando um ar de aberração. Tem outra: quase nunca as imagens geradas por IA são perfeitas. Normalmente, as fotos vêm com pequenos erros ou detalhes imprecisos. Acontece que isso não é um problema quando se trata de um prédio ou uma peça de roupa, por exemplo. No caso das mãos, isso pode ser um grande problema e tornar a imagem bizarra. A forma e o tamanho das mãos podem variar muito de pessoa para pessoa, e mesmo pequenas mudanças no posicionamento dos dedos ou na curvatura do pulso podem alterar significativamente a expressão da mão e deformá-la.Bases de dados precisam melhorar
Essencialmente, os geradores de IA identificam as mãos com base no arranjo e combinações de pixels, mas não conseguem entender o que está além de sua representação visual. Parte do problema é que a maioria das imagens existentes de pessoas reais não tem o foco em suas mãos, necessariamente. Algumas fotos podem ser concentradas nas mãos e dedos, mas há muito mais rostos do que mãos “disponíveis” para o algoritmo aprender, por exemplo. Não há uma abundância tão grande de dedos e mãos para a IA processar. E, para aprender, essa tecnologia depende de referências. Se as bases de dados usadas para alimentar os modelos de IA tivessem mais fotografias e vídeos de mãos humanas, talvez essas ferramentas teriam condições de aprender mais sobre nossa anatomia. Além disso, a criação de uma mão envolve diversos aspectos que variam entre o entendimento da função do membro e a própria subjetividade humana, o que torna o processo ainda mais desafiador.— no context memes (@weirddalle)