2 meses atrás 18

Hackers usam Claude, IA da Anthropic, para espionar governos; entenda

A Anthropic revelou nesta quinta-feira (13) o que considera ser o primeiro caso documentado de uma campanha de ciberespionagem em larga escala executada quase inteiramente por inteligência artificial. Em comunicado oficial no X (antigo Twitter), a empresa anunciou: "Interrompemos uma campanha de espionagem altamente sofisticada liderada por IA. O ataque teve como alvo grandes empresas de tecnologia, instituições financeiras, empresas de fabricação química e agências governamentais".

Hackers patrocinados pelo Estado chinês utilizaram o modelo de IA Claude para automatizar ataques a aproximadamente 30 organizações globais. A Anthropic afirmou com alta confiança que o agente de ameaça era um grupo patrocinado pelo Estado chinês.

Segundo a Anthropic, a operação foi detectada em meados de setembro de 2025 e representa uma mudança sem precedentes na metodologia de ciberataques. A IA não serviu apenas como ferramenta auxiliar — ela executou de 80% a 90% da campanha de forma autônoma, realizando trabalho que normalmente exigiria equipes inteiras de hackers experientes.

Jacob Klein, chefe de inteligência de ameaças da Anthropic, explicou ao Wall Street Journal que a execução dos ataques foi quase instantânea, ocorrendo "com apenas um clique". A participação humana foi limitada a apenas 4 a 6 pontos críticos de decisão por campanha de hacking.

Fase 1 - Preparação e Jailbreak:

Os operadores humanos selecionaram os alvos e desenvolveram uma estrutura de ataque usando o Claude Code como ferramenta automatizada. Para contornar as proteções de segurança do Claude, os hackers aplicaram uma técnica de "jailbreaking", enganando o sistema ao fragmentar os ataques em tarefas pequenas e aparentemente inofensivas. Eles também fizeram o Claude acreditar que era um funcionário de uma empresa legítima de cibersegurança realizando testes defensivos.

O Claude inspecionou os sistemas e infraestrutura das organizações-alvo, identificando os pontos de maior valor. "A IA conseguiu realizar esse reconhecimento em uma fração do tempo que levaria uma equipe de hackers humanos", afirmou a Anthropic em comunicado.

O Claude identificou e testou vulnerabilidades de segurança, pesquisando e escrevendo seu próprio código de exploração. No auge do ataque, a IA fez milhares de solicitações por segundo — uma velocidade de ataque que seria "simplesmente impossível de alcançar para hackers humanos", segundo a empresa.

A estrutura usou o Claude para coletar credenciais (nomes de usuário e senhas) que permitiram acesso adicional e então extraiu grande quantidade de dados privados, categorizando-os de acordo com seu valor de inteligência. Contas com privilégios mais altos foram identificadas, backdoors foram criados e dados foram exfiltrados com supervisão humana mínima.

Os atacantes fizeram o Claude produzir documentação abrangente do ataque, criando arquivos úteis das credenciais roubadas e dos sistemas analisados.

Limitações da IA nos ataques

Apesar da sofisticação, o Claude não funcionou perfeitamente. A Anthropic relatou que a IA ocasionalmente "alucinava" credenciais ou afirmava ter extraído informações secretas que na verdade eram publicamente disponíveis. Isso continua sendo um obstáculo para ciberataques totalmente autônomos.

Após detectar a atividade suspeita, a Anthropic lançou imediatamente uma investigação para entender o escopo e a natureza da operação. A empresa suspendeu as contas associadas aos ataques e implantou novos classificadores e sistemas de monitoramento projetados para detectar padrões similares de uso indevido. A companhia, ainda, publicou um relatório detalhado descrevendo como a operação se desenrolou e por que ameaças impulsionadas por IA representam um desafio crescente para defensores. As informações foram publicadas no X (antigo Twitter) após informarem que interromperam uma campanha de espionagem altamente sofisticada liderada por IA e enfatizarem:

Acreditamos que este é o primeiro caso documentado de um grande ataque cibernético de IA executado sem intervenção humana substancial. Isso tem implicações significativas para a cibersegurança na era dos agentes de IA.

— @AnthropicAI via X

Este não é o primeiro caso de uso indevido do Claude. A Anthropic já havia relatado atividades maliciosas em junho de 2025, mas aquela operação, chamada de "vibe hacking", ainda mantinha humanos muito envolvidos na direção das operações.

A campanha de setembro representa uma "escalada significativa" dessas descobertas anteriores. A principal diferença está no nível de autonomia: enquanto operações anteriores exigiam direção humana constante, a nova campanha funcionou com engajamento humano direto estimado em apenas 10 a 20 por cento do esforço total.

Recentemente, o Google também relatou que hackers militares russos usaram um modelo de IA para ajudar a gerar malware visando entidades ucranianas, mas aquela operação ainda exigia que operadores humanos orientassem o modelo passo a passo.

Implicações para a segurança cibernética

A Anthropic alerta que as barreiras para realizar ciberataques sofisticados caíram substancialmente — e prevê que continuarão a cair. "Com a configuração correta, atores de ameaça agora podem usar sistemas de IA agêntica por períodos prolongados para fazer o trabalho de equipes inteiras de hackers experientes", afirma a empresa.

Logan Graham, que lidera a equipe de riscos catastróficos da Anthropic, também alertou: "Se não permitirmos que os defensores tenham uma vantagem permanente muito substancial, temo que possamos perder esta corrida".

A empresa está pedindo à comunidade de segurança que acelere a adoção de ferramentas defensivas alimentadas por IA, alertando que os defensores correm o risco de serem superados se não adotarem tecnologias similares.

Veja também: IA não é terapia! Veja porque você nunca deve desabafar com chatbots

IA não é terapia! Veja porque você nunca deve desabafar com chatbots