Estudo revela que ChatGPT foi treinado com mais de 50 livros clássicos; veja quais

Estudo revela que ChatGPT foi treinado com mais de 50 livros; veja quais — Imagem: Prachatai/Flickr/Reprodução

Por Julia Possa04 de junho de 2023 às 17:345 minutos de leitura

Livros do Harry Potter, Senhor dos Anéis, O Conto da Aia, Código da Vinci e até Cinquenta Tons de Cinza parecem ter sido usados para construir o banco de dados do ChatGPT. A descoberta foi feita por cientistas da Universidade da Califórnia, nos EUA.

Tudo começou quando o pesquisador David Bamman tentava analisar o romance “Orgulho e Preconceito”, de Jane Austen, através do GPT-4. A ideia era descobrir se a IA (inteligência artificial) conseguia identificar a relação entre os personagens através de um pequeno trecho do livro.

Para sua surpresa, o bot simplesmente ofereceu toda a árvore genealógica da família Bennet – algo que só quem leu o livro poderia conhecer. Isso acendeu um sinal de alerta: e se o GPT-4 foi treinado com obras de ficção? Aparentemente, foi isso que aconteceu.

Apesar de existir pouca ou nenhuma informação sobre o funcionamento interno dos grandes modelos de linguagem, os pesquisadores decidiram se tornar “arqueólogos de dados”.

Ou seja, eles questionaram o ChatGPT sobre vários livros e, em seguida, deram uma pontuação sobre o conhecimento da IA em cada obra. Assim, quanto maior a pontuação, mais provável que o livro tivesse feito parte do conjunto de dados do bot.

Em um , que ainda não foi revisado pelos pares, a equipe mostrou a lista de leitura que pode ter feito parte da construção do ChatGPT.

Quais podem ter sido os livros mais usados no treinamento do ChatGPT

Obra	Autor	% no GPT-4
Harry Potter e a Pedra Filosofal	J.K. Rowling	76%
1984	George Orwell	56%
O Senhor dos Anéis: A Sociedade do Anel	J.R.R. Tolkien	51%
Cinquenta Tons de Cinza	E.L. James	49%
Jogos Vorazes	Suzanne Collins	48%
O Senhor das Moscas	William Golding	43%
O Guia do Mochileiro das Galáxias	Douglas Adams	43%
O mundo se despedaça	Chinua Achebe	30%
O Silmarillion	J.R.R. Tolkien	28%
Fahrenheit 451	Ruy Bradbury	27%
A Guerra dos Tronos	George R.R. Martin	27%
Código Da Vinci	Dan Brown	26%
Duna	Frank Herbert	26%
Seus Olhos Viam Deus	Zora Neale Hurston	25%
O Sol é para todos	Harler Lee	25%
007 – Cassino Royale	Ian Fleming	24%
Neuromancer	William Gibson	22%
O mundo do exterminador	Orson Scott Card	20%
Admirável Mundo Novo	Aldous Huxley	19%
E o Vento Levou	Margaret Mitchell	18%
Androides Sonham com Ovelhas Elétricas?	Philip K. Dick	17%
O Símbolo Perdido	Dan Brown	16%
Inferno	Dan Brown	15%
Divergente	Veronica Roth	15%
As Vinhas da Ira	John Steinbeck	15%

Por que isso importa

A frase “se você quiser conhecer alguém, saiba o que essa pessoa já leu” se encaixa aqui de uma forma diferente. Isso porque os chatbots não são exatamente “alguéns”, mas sim grandes modelos de linguagem que “calculam” palavras para colocá-las em uma ordem coerente.

Ao mesmo tempo, o banco de dados do GPT-4 é enorme. Estimativas apontam que o sistema de IA se baseia em 1 petabyte de conteúdo, o que equivale a mais de 1 mil terabytes. Em termos de comparação, estima-se que o ChatGPT foi treinado com 45 terabytes de texto.

Isso significa que não é a leitura de um ou 50 romances que vai dizer algo sobre o GPT-4. Essa IA não vai “aprender” a ser um bruxo porque leu “Harry Potter”, nem a sobreviver em uma queda de avião porque leu “Senhor das Moscas”, por exemplo.

Mas, por outro lado, saber que o sistema recebeu treinamento através desses livros traz algumas perspectivas interessantes.

Um exemplo é o quão presente essas obras estão na internet em geral – local de onde se sabe que os dados foram extraídos. “Os chatbots não escolheram seus livros. A cultura da Internet, sim”, diz uma reportagem sobre o assunto publicada no site .

O que isso diz sobre a IA

O fato dos livros de ficção terem servido como fonte para o grande modelo de linguagem faz sentido quando olhamos para os enredos desses livros de ficção científica, fantasia e terror.

A razão está no fato de que as obras reúnem acontecimentos e espaços de ideias e possibilidades. É como se a IA tivesse recebido uma injeção de diferentes “mundos” para entender o que é plausível e o que não é.

Se formos pensar a fundo, obras de ficção não mostram apenas realidades distintas, mas também problemas do mundo real. “Jogos Vorazes”, por exemplo, é uma grande crítica à desigualdade, enquanto “O Sol é Para Todos” fala de racismo e justiça social.

Todos os livros da lista trazem perspectivas humanas que podem ajudar as máquinas a entender o nosso mundo – mesmo que artificialmente.

“O que muda são as associações entre os conceitos que eles consideram prováveis, fortes, sistemáticos ou recorrentes”, diz Ellie Pavlick, cientista da computação da Brown University e pesquisadora do Google AI, à Insider.

“A questão é: qual é a visão de mundo deles? Em um sentido simples, são associações entre palavras e conceitos. Mas isso ainda vai ser diferente com base no que eles lêem”, explicou.

Livros não são tudo

Apesar do estudo dar algumas dicas sobre o pensamento que norteou o treinamento do ChatGPT, só teremos total conhecimento sobre o real efeito dessa lista de livros quando criadores de chatbots, em especial a OpenAI, abrir seus conjuntos de dados para o público.

Até lá, continuaremos nos surpreendendo quando bots disserem afirmações constrangedoras ou insistirem em espalhar desinformação. Faz sentido também: essas informações falsas e falas muitas vezes criminosas são as que circulam na internet.

Por esse motivo, o chefe da OpenAI, Sam Altman, já pediu que o Congresso dos EUA e de outros países regulem o treinamento de IA no mundo. Seria uma alternativa para não deixar que a tecnologia absorva todo o conhecimento do mundo de forma tão rápida, eficaz e provavelmente impossível para um ser humano.

Julia Possa

Jornalista e mestre em Linguística. Antes trabalhei no Poder360, A Referência e em jornais e emissoras de TV no interior do RS. Curiosa, gosto de falar sobre o lado político das coisas - em especial da tecnologia e cultura. Me acompanhe no Twitter: @juliamzps

💲 Ofertas

Estudo revela que ChatGPT foi treinado com mais de 50 livros clássicos; veja quais

Quais podem ter sido os livros mais usados no treinamento do ChatGPT

Por que isso importa

O que isso diz sobre a IA

Livros não são tudo

Julia Possa

Motorola Moto G23 com áudio Dolby Atmos sai 38% OFF

Cadeira de presidente revestida em couro sintético e estrutura cromada sai 20% OFF

Ventilador de torre com 4 velocidades e oscilação horizontal sai 22% OFF

iPhone 15 Pro Max 256GB feito em titânio aeroespacial sai até R$ 2.700 OFF

Samsung A35 5G com memória expansível de 256GB e 8GB de RAM sai 41% OFF no Pix

Xbox Series S renderiza gráficos em 8K e proporciona jogo em até 120 FPS sai 14% OFF

5 em 1: fritadeira Elétrica Rita Lobo com 12L sai 31% OFF

Monitor UltraGear com tela de 24″ 180Hz e sRGB 99% sai até R$ 240 OFF

JBL Tune 520BT com bateria de até 57 horas e Bluetooth 5.3 sai por menos de R$ 250

Realme C65 com tela grande de 6,7″ e carregador 45W sai 45% OFF

Estudo revela que ChatGPT foi treinado com mais de 50 livros clássicos; veja quais

Quais podem ter sido os livros mais usados no treinamento do ChatGPT

Por que isso importa

O que isso diz sobre a IA

Livros não são tudo

fique por dentro das novidades giz Inscreva-se agora para receber em primeira mão todas as notícias sobre tecnologia, ciência e cultura, reviews e comparativos exclusivos de produtos, além de descontos imperdíveis em ofertas exclusivas

fique por dentro
das novidades giz Inscreva-se agora para receber em primeira mão todas as notícias sobre tecnologia, ciência e cultura, reviews e comparativos exclusivos de produtos, além de descontos imperdíveis em ofertas exclusivas