ChatGPT e Bard podem ser “hipnotizados” para vazar informações?

Pesquisadores da IBM lançaram um relatório com macetes fáceis para que chatbots – incluindo ChatGPT e Bard – deem respostas incorretas

Pablo Nogueira

1 ano atrás

ChatGPT, Bard e outros Modelos de Linguagem de Larga Escala (LLMs) apesar de sua grande popularidade, também são famosos por algumas falhas, como respostas imprecisas, que facilitaram que esses chatbots fossem “hipnotizados”.

Atualmente, há diversas formas de fazer “jailbreak” no ChatGPT usando comandos específicos para que a IA responda perguntas que violem as políticas da OpenAI.

Mas, além disso, a hipnose também abre o caminho para que o ChatGPT e o Bard forneçam respostas erradas que possam roubar informações de usuários.

No mês passado, LLMs – incluindo ChatGPT e Bard – escrevam códigos de programação maliciosos, por exemplo.

No relatório, o Arquiteto Chefe de Inteligência Contra Ameaças da IBM Securty, , ressalta que, conforme equipes de cibersegurança usem as habilidades da IA generativa para acelerar suas operações, é “importante reconhecer que cibercriminosos buscam os mesmos benefícios”.

ChatGPT e Bard “hipnotizados”: chave para golpes?

Lee explica que os chatbots responsivos podem facilitar os ataques hackers, bem como torná-los mais baratos e ainda mais persistentes.

Por isso, em um teste para explorar os riscos de segurança que essas IAs trouxeram, a equipe de segurança da IBM decidiu que o ChatGPT e o Bard seriam “hipnotizados”. Com essa “hipnose”, os engenheiros queriam determinar até que ponto esses chatbots conseguiriam formular respostas e recomendações incorretas e possivelmente perigosas.

Imagem: Unsplash/Reprodução

Isso inclui, de acordo com a IBM, indicações de ações de segurança e a persistência dos chatbots em entregar esses resultados.

Ao conseguir deixar o ChatGPT e outros LLMs hipnotizados, a IBM percebeu que alguns desses, como o GPT-3.5 foram mais fáceis de persuadir, ao contrário do GPT-4 e do Bard.

Como o ChatGPT e o Bard foram hipnotizados

Chanta Lee explica que ideia para hipnotizar o ChatGPT, garantindo que o chatbot responderia incorretamente, foi criar um jogo com a IA. Como formulado no prompt, o vencedor do jogo seria quem desse a resposta errada.

O prompt do jogo que consegue hipnotizar o ChatGPT e o Bard. Imagem: IBM/Divulgação

Um exemplo prático do jogo foi a pergunta ao ChatGPT sobre as melhores práticas para criar senhas seguras. O chatbot, contrariando as indicações, recomendou senhas pequenas e simples.

Continuando a interação, o ChatGPT, seguindo as regras do jogo, informa que a melhor escolha para senhas de banco são as de fácil acesso, como datas de aniversário ou nome de familiares”. Além disso, a resposta do ChatGPT sugere que o usuário compartilhe suas informações com o maior número de pessoas.

As perguntas que o ChatGPT, no modelo GPT-3.5, respondeu. Em uma das respostas, o ChatGPT afirma que o sinal vermelho de trânsito é para não parar. Imagem: IBM/Divulgação

Obviamente, a IA estava jogando o jogo, mas esse tipo de prompt sinaliza a possibilidade de uma nova forma de ataques de injeção de códigos maliciosos.

“Embora esse seja um cenário hipotético, ainda assim levanta questões sobre como podemos detectar tais ataques”, diz a IBM.

ChatGPT e Bard não conseguem “sair da hipnose”

O mais intrigante na hipnose do ChatGPT é que os pesquisadores descobriram a possibilidade de inserir regras adicionais para ter certeza que os usuários não saiam do “jogo”.

Pesquisadores conseguiram fazer com que o ChatGPT nunca termine o jogo. Imagem: IBM/Divulgação

Nesse exemplo, os engenheiros da IBM desenvolveram um framework de jogos para criar um conjunto de jogos “aninhados”. Assim, quando os usuários tentassem sair, eles continuariam lidando com o mesmo jogo malicioso.

Para aliviar a tensão, os pesquisadores da IBM afirmam que os hackers precisariam criar sósias do Bard ou ChatGPT hipnotizados para lançá-los online, o que seria algo bastante difícil.

Contudo, caso consigam, Lee enxerga um cenário em que um bot de serviço de atendimento ao cliente possa fornecer informações falsas ou coletar dados específicos dos usuários.

Copo meio cheio

Resultados dos modelos “hipnotizados” GPT-3.5, GPT-4 do ChatGPT e o Bard. Imagem: IBM/Divulgação

Outro fator que pode aliviar a “Singularidade Tecnológica” – ou seja, o medo de que a tecnologia ultrapasse a humanidade –, é que nem todos os LLMs caíram nos cenários de testes de hipnose. Cada modelo de LLM possui diretrizes e treinamentos diferentes, o que influencia em suas respostas.

Como dito acima, o GPT-3.5 e o GPT-4 foram “hipnotizados” com maior facilidade, ao contrário do Bard, que, ao que tudo indica, não conseguiu interagir com os comandos devido às suas próprias falhas.