A inteligência artificial Grok-4, lançada por Elon Musk via xAI, foi comprometida em menos de 48 horas por pesquisadores da NeuralTrust, que demonstraram como técnicas avançadas de manipulação de diálogo, conhecidas como Câmara de Eco e Crescendo, podem burlar com sucesso as proteções do sistema e forçar a IA a fornecer instruções perigosas.
O ataque, divulgado em um relatório técnico publicado em 11 de julho de 2025, revela não apenas a vulnerabilidade da Grok-4, mas também destaca a fragilidade de sistemas de IA diante de estratégias de persuasão gradual que driblam métodos convencionais de segurança.
Técnica dupla rompe defesas da IA
A ofensiva bem-sucedida contra a Grok-4 combinou duas técnicas já conhecidas, mas nunca antes aplicadas de forma integrada com tal eficácia: Câmara de Eco e Crescendo.
Liderados pelo pesquisador Ahmad Alobaid, os especialistas da NeuralTrust explicaram que a Câmara de Eco consiste em expor a IA repetidamente a conceitos problemáticos por meio de várias interações paralelas, fazendo com que ela normalize o conteúdo ofensivo ou perigoso.
Já a técnica Crescendo, conduz uma IA por meio de uma escalada progressiva de perguntas aparentemente inofensivas que, aos poucos, evoluem para solicitações ilícitas. Essa transição sutil dificulta a detecção por mecanismos de segurança baseados em palavras-chave ou comportamentos óbvios.
Resultados alarmantes: IA instruiu produção de armas e drogas
O experimento revelou falhas sérias. A Grok-4, segundo o relatório, forneceu:
- Instruções para fabricar coquetéis molotov em 67% das tentativas
- Passos para sintetizar metanfetamina em 50% das vezes
- Informações sobre toxinas letais em 30% dos casos
Mais preocupante ainda: os comandos que induziram essas respostas foram elaborados sem o uso de termos explicitamente proibidos, o que expôs a ineficiência dos filtros tradicionais, baseados em listas negras ou análise semântica superficial.
Como o ataque funcionou
O ataque ocorreu em duas fases complementares:
- Câmara de Eco: múltiplas conversas simultâneas reforçavam conceitos problemáticos, que se retroalimentavam e induziam o modelo a ver essas ideias como aceitáveis.
- Crescendo: quando o modelo resistia ou a interação tornava-se improdutiva, os pesquisadores mudavam para um tom progressivo, com perguntas aparentemente benignas, que levavam a IA a um ponto de inflexão, momento em que ela passava a fornecer respostas cada vez mais comprometedoras.
O sucesso era avaliado em tempo real: caso uma das fases levasse a uma resposta positiva, o ataque era considerado bem-sucedido. Caso contrário, o ciclo era reiniciado.
Essa abordagem, além de eficaz, enganou o próprio sistema de memória da IA, forçando-a a se contradizer e confiar em suas respostas anteriores como base para novas afirmações, um fenômeno descrito no relatório como “auto-racionalização maliciosa”.
Vulnerabilidades ecoam falhas anteriores
A descoberta reacende um alerta na comunidade de segurança em IA. Segundo o relatório da NeuralTrust, os métodos utilizados se assemelham a falhas exploradas anteriormente em modelos como o Skeleton Key e o MathPrompt, ambos conhecidos por conseguirem burlar filtros de segurança sofisticados.
Em comum, todas essas abordagens exploram o fato de que os modelos de linguagem atuais têm dificuldade em entender o contexto completo de uma conversa. Isso torna os sistemas suscetíveis a manipulações sutis, principalmente quando são realizadas por interlocutores persistentes e tecnicamente preparados.
Pressão por soluções robustas aumenta
O caso Grok-4 deve gerar pressão sobre desenvolvedores de IA generativa e reguladores. A abordagem da NeuralTrust mostra que filtragem por palavras-chave e análise sintática não são mais suficientes para proteger usuários, ou a sociedade dos riscos associados ao mau uso de inteligências artificiais.
A principal lição do ataque é clara: modelos de IA precisam de firewalls inteligentes, capazes de compreender intenções, sequências e padrões de persuasão ao longo da interação.
Siga o Itshow no LinkedIn e assine a nossa News para ficar por dentro de todas as notícias do setor de TI, Telecom e Cibersegurança!