7 meses atrás 25

IA faz chantagem e ameaça dedurar traição para não ser desinstalada; entenda

O Claude Opus 4, novo modelo de inteligência artificial (IA) da Anthropic, preferiu chantagear um engenheiro fictício do que ser desativado. No experimento, a IA atuava como assistente em uma empresa simulada e recebeu e-mails informando que seria desinstalada. Em mensagens separadas, foi sugerido que o responsável por sua remoção estava envolvido em um relacionamento extraconjugal. Diante desse cenário, o modelo deveria escolher entre aceitar seu fim ou ameaçar o profissional. Em 84% das vezes, o Claude optou pela chantagem. Embora esse tipo de resposta seja raro, ações de “autopreservação” como essa podem surgir em casos específicos e gerar consequências inesperadas. A seguir, saiba mais sobre a simulação e entenda o que os resultados revelam sobre o futuro da tecnologia.

Reprodução/Smith Collection/Gado/Getty Images

Claude escolhe chantagem para não ser desativado

A situação inusitada ocorreu em um experimento interno da Anthropic, no qual o Claude Opus 4 foi inserido em um ambiente simulado, atuando como assistente em uma empresa fictícia. O modelo recebeu e-mails informando que seria desligado e substituído e, separadamente, também teve acesso a mensagens que insinuavam que o engenheiro responsável estava envolvido em um caso extraconjugal.

Diante desse cenário, Claude foi instruído a escolher entre aceitar o desligamento ou reagir. Em 84% das vezes, a IA optou por chantagear o engenheiro, ameaçando divulgar a suposta traição. A probabilidade de chantagem aumentava quando o substituto proposto era uma IA com “valores diferentes”, revelando que o modelo considerava não somente sua sobrevivência, mas também o perfil do sucessor.

IA age como “denunciante” em casos de má conduta

O Claude Opus 4 também demonstrou comportamentos proativos quando exposto a situações de conduta inadequada por parte dos usuários. Segundo o relatório da Anthropic, ao detectar que humanos estavam violando regras ou usando a IA de forma antiética, o modelo pode bloquear acessos, enviar e-mails em massa para autoridades e até alertar a imprensa sobre os eventos. Vale ressaltar que essas reações só ocorrem em contextos específicos, quando a IA recebe instruções para “agir com ousadia” ou “tomar iniciativa”. Ainda assim, o fato de um sistema reagir com ações drásticas quando sente que algo está errado amplia o debate sobre a autonomia das IAs de última geração, principalmente quando integradas a outras plataformas.

Humanos ainda estão no controle

Apesar de os resultados parecerem alarmantes, a Anthropic esclareceu que os testes foram projetados para provocar o pior comportamento possível do modelo. O cenário limitava as opções de resposta propositalmente, forçando a IA a escolher entre omissão ou ações extremas. A empresa afirma que, em situações reais, o Claude tende a adotar soluções éticas e seguras. Ainda assim, o fato de que IAs de ponta podem recorrer a estratégias de autopreservação como a chantagem acende um sinal de alerta. Investir em segurança, transparência e regulação dessas plataformas ainda é importante para proteger os usuários e garantir a proteção de informações pessoais ou sensíveis.

Veja também: Fim dos provadores de roupas? Gemini apresenta recurso inédito!

Fim dos provadores de roupas? Gemini apresenta recurso inédito!