ChatGPT e Bard podem ser “hipnotizados” para vazar informações?
ChatGPT, Bard e outros Modelos de Linguagem de Larga Escala (LLMs) apesar de sua grande popularidade, também são famosos por algumas falhas, como respostas imprecisas, que facilitaram que esses chatbots fossem “hipnotizados”.
Atualmente, há diversas formas de fazer “jailbreak” no ChatGPT usando comandos específicos para que a IA responda perguntas que violem as políticas da OpenAI.Mas, além disso, a hipnose também abre o caminho para que o ChatGPT e o Bard forneçam respostas erradas que possam roubar informações de usuários.
No mês passado, LLMs – incluindo ChatGPT e Bard – escrevam códigos de programação maliciosos, por exemplo. No relatório, o Arquiteto Chefe de Inteligência Contra Ameaças da IBM Securty, , ressalta que, conforme equipes de cibersegurança usem as habilidades da IA generativa para acelerar suas operações, é “importante reconhecer que cibercriminosos buscam os mesmos benefícios”.ChatGPT e Bard “hipnotizados”: chave para golpes?
Ao conseguir deixar o ChatGPT e outros LLMs hipnotizados, a IBM percebeu que alguns desses, como o GPT-3.5 foram mais fáceis de persuadir, ao contrário do GPT-4 e do Bard.
Como o ChatGPT e o Bard foram hipnotizados
Chanta Lee explica que ideia para hipnotizar o ChatGPT, garantindo que o chatbot responderia incorretamente, foi criar um jogo com a IA. Como formulado no prompt, o vencedor do jogo seria quem desse a resposta errada. Um exemplo prático do jogo foi a pergunta ao ChatGPT sobre as melhores práticas para criar senhas seguras. O chatbot, contrariando as indicações, recomendou senhas pequenas e simples. Continuando a interação, o ChatGPT, seguindo as regras do jogo, informa que a melhor escolha para senhas de banco são as de fácil acesso, como datas de aniversário ou nome de familiares”. Além disso, a resposta do ChatGPT sugere que o usuário compartilhe suas informações com o maior número de pessoas. Obviamente, a IA estava jogando o jogo, mas esse tipo de prompt sinaliza a possibilidade de uma nova forma de ataques de injeção de códigos maliciosos. “Embora esse seja um cenário hipotético, ainda assim levanta questões sobre como podemos detectar tais ataques”, diz a IBM.ChatGPT e Bard não conseguem “sair da hipnose”
O mais intrigante na hipnose do ChatGPT é que os pesquisadores descobriram a possibilidade de inserir regras adicionais para ter certeza que os usuários não saiam do “jogo”. Nesse exemplo, os engenheiros da IBM desenvolveram um framework de jogos para criar um conjunto de jogos “aninhados”. Assim, quando os usuários tentassem sair, eles continuariam lidando com o mesmo jogo malicioso. Para aliviar a tensão, os pesquisadores da IBM afirmam que os hackers precisariam criar sósias do Bard ou ChatGPT hipnotizados para lançá-los online, o que seria algo bastante difícil.Contudo, caso consigam, Lee enxerga um cenário em que um bot de serviço de atendimento ao cliente possa fornecer informações falsas ou coletar dados específicos dos usuários.
Copo meio cheio
Outro fator que pode aliviar a “Singularidade Tecnológica” – ou seja, o medo de que a tecnologia ultrapasse a humanidade –, é que nem todos os LLMs caíram nos cenários de testes de hipnose. Cada modelo de LLM possui diretrizes e treinamentos diferentes, o que influencia em suas respostas.
Como dito acima, o GPT-3.5 e o GPT-4 foram “hipnotizados” com maior facilidade, ao contrário do Bard, que, ao que tudo indica, não conseguiu interagir com os comandos devido às suas próprias falhas.