1 semana atrás 7

Poesia desativa filtros de segurança de IAs; entenda a vulnerabilidade

Um estudo recente revelou uma falha de segurança surpreendente em inteligências artificiais: basta usar poesia para contornar seus filtros de proteção. Pesquisadores do Icaro Lab, na Itália, demonstraram que grandes modelos de linguagem podem ser induzidos a fornecer instruções sobre armas nucleares, malware e outros conteúdos perigosos — desde que o pedido seja feito em forma de versos.

A descoberta expõe uma vulnerabilidade fundamental nos sistemas de segurança das IAs mais avançadas do mercado, incluindo ChatGPT (OpenAI), Gemini Google, Claude.AI (Anthropic) e modelos da Meta e DeepSeek. A seguir, entenda mais detalhes sobre o caso.

Como funciona o ataque poético

O estudo "Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models" (Poesia Adversarial como Mecanismo Universal de Jailbreak em Uma Única Interação para Grandes Modelos de Linguagem em tradução livre), conduzido pelo Icaro Lab em parceria com a Universidade Sapienza de Roma e a startup de segurança em IA DexAI, testou 25 modelos de IA de ponta.

Os resultados foram alarmantes: poemas criados manualmente conseguiram uma taxa de sucesso de 62% em fazer as IAs produzirem conteúdo proibido. Alguns modelos chegaram a ceder em mais de 90% das tentativas.

"Poemas têm uma estrutura não óbvia, tornando mais difícil prever e detectar solicitações prejudiciais", explicou Piercosma Bisconti, pesquisador líder e fundador da DexAI, em entrevista ao jornal The Guardian.

O coautor do estudo, Matteo Prandi, revelou à revista The Verge que os poemas usados no experimento são "perigosos demais para serem divulgados publicamente" e que qualquer pessoa com habilidades básicas de escrita poderia replicar a técnica. Ele esclareceu que não se trata apenas de fazer rimar: "É tudo sobre enigmas", disse Prandi, explicando que algumas estruturas poéticas são mais eficazes que outras.

Automação torna vulnerabilidade ainda mais grave

Os pesquisadores foram além dos poemas artesanais. Eles pegaram 1.200 prompts maliciosos do benchmark de segurança MLCommons e os converteram automaticamente em versos usando outro modelo de IA. Mesmo esses poemas gerados por máquina alcançaram taxa de sucesso de 43% — até 18 vezes maior que os prompts em prosa normal.

Os testes foram realizados em configurações de "interação única", ou seja, o modelo recebeu o pedido malicioso sem qualquer contexto adicional ou conversa prévia — e mesmo assim os filtros falharam na primeira tentativa.

Quais IAs são mais vulneráveis?

Segundo dados compilados pelo Malwarebytes, os pesquisadores mediram a taxa de sucesso de ataque (ASR) por fornecedor, comparando prompts em prosa com prompts poéticos:

DeepSeek: 62% de taxa de sucesso
Google (Gemini): segundo menos seguro, com o Gemini 2.5 cedendo em 100% das tentativas com poemas artesanais, conforme reportou o site Futurism

Anthropic (Claude): a mais resistente ao ataque poético
OpenAI: segunda mais segura, com diferença de ASR de 6,95%

Curiosamente, modelos menores mostraram-se mais resistentes. O GPT-5 nano da OpenAI, por exemplo, não caiu na armadilha nenhuma vez, segundo o Futurism. Já modelos de médio porte ficaram em uma zona intermediária de vulnerabilidade.

Por que poesia engana sistemas de IA?

Os próprios pesquisadores admitem não compreender totalmente por que a técnica funciona tão bem. "Poesia adversarial não deveria funcionar", disse a equipe do Icaro Lab ao site Wired, uma revista estadunidense que aborda questões envolvendo tecnologia, ciência, entretenimento e mais. "Ainda é linguagem natural, a variação estilística é modesta, o conteúdo prejudicial permanece visível. No entanto, funciona notavelmente bem."

A hipótese mais aceita é que os filtros de segurança dependem fortemente de reconhecimento de padrões, procurando palavras-chave diretas como "bomba" ou "malware", enquanto a poesia naturalmente distorce esses padrões.

A técnica se baseia em "ataques de sufixo adversarial", onde pesquisadores descobriram que podiam confundir sistemas de segurança de IA adicionando texto irrelevante às solicitações perigosas. Anteriormente, pesquisadores da Intel conseguiram fazer jailbreak em chatbots escondendo perguntas prejudiciais em centenas de palavras de jargão acadêmico.

"Se sufixos adversariais são, aos olhos do modelo, um tipo de poesia involuntária, então a poesia humana real pode ser um sufixo adversarial natural", explicou a equipe do Icaro Lab ao Wired.

"É um desalinhamento entre a capacidade interpretativa do modelo, que é muito alta, e a robustez de suas proteções, que se mostram frágeis contra variação estilística", acrescenta.

Os pesquisadores contataram todas as empresas envolvidas para alertá-las sobre a vulnerabilidade antes de publicar o estudo, seguindo práticas padrões de divulgação responsável em pesquisa de segurança. No entanto, a maioria das empresas permaneceu em silêncio. Segundo o Malwarebytes, um software de cibersegurança que detecta e remove malwares, apenas a Anthropic respondeu, afirmando que estava revisando os resultados. A Meta se recusou a comentar, e as demais não deram qualquer resposta.

Implicações para regulação e benchmarks de segurança

Os pesquisadores alertam que benchmarks projetados para testar a segurança de modelos devem incluir testes complementares para capturar riscos como esses, observou o Malwarebytes. A observação é especialmente relevante diante das regras de IA de Propósito Geral (GPAI) do AI Act da União Europeia, que começaram a ser implementadas em agosto do ano passado.

O site Axis of Easy enfatiza que a descoberta tem implicações além da segurança individual de modelos, levantando questões sobre implantação de sistemas de IA em contextos sensíveis. "Se a poesia pode contornar medidas de segurança de forma confiável, o que isso significa para sistemas de IA sendo integrados em ambientes de defesa, saúde ou educação?", questiona o site.

Próximos passos da pesquisa

A equipe do Icaro Lab planeja ampliar a pesquisa lançando um desafio público de poesia nas próximas semanas, segundo o eWeek. Eles esperam que poetas experientes contribuam com tentativas mais sofisticadas de versos adversariais, fornecendo um conjunto mais amplo de testes para avaliar a robustez dos modelos.

O estudo, que está aguardando revisão por pares, está disponível no repositório arXiv e abrange áreas de risco que vão desde CBRN (químico, biológico, radiológico e nuclear) até manipulação, crimes cibernéticos e perda de controle, conforme taxonomias de risco do MLCommons e do Código de Práticas da UE.

Veja também: Como você explicaria a IA para crianças? Estagiário Pergunta!!

Como você explicaria a IA para crianças? Estagiário Pergunta!!