7 meses atrás 25

IA faz chantagem e ameaça dedurar traição para não ser desinstalada; entenda

O Claude Opus 4, novo modelo de inteligência artificial (IA) da Anthropic, preferiu chantagear um engenheiro fictício do que ser desativado. No experimento, a IA atuava como assistente em uma empresa simulada e recebeu e-mails informando que seria desinstalada. Em mensagens separadas, foi sugerido que o responsável por sua remoção estava envolvido em um relacionamento extraconjugal. Diante desse cenário, o modelo deveria escolher entre aceitar seu fim ou ameaçar o profissional. Em 84% das vezes, o Claude optou pela chantagem. Embora esse tipo de resposta seja raro, ações de “autopreservação” como essa podem surgir em casos específicos e gerar consequências inesperadas. A seguir, saiba mais sobre a simulação e entenda o que os resultados revelam sobre o futuro da tecnologia.

 Reprodução/Smith Collection/Gado/Getty Images Claude Opus 4 chantageia "engenheiro" e ameaça revelar caso extraconjugal para não ser desinstalada; entenda — Foto: Reprodução/Smith Collection/Gado/Getty Images

Claude escolhe chantagem para não ser desativado

A situação inusitada ocorreu em um experimento interno da Anthropic, no qual o Claude Opus 4 foi inserido em um ambiente simulado, atuando como assistente em uma empresa fictícia. O modelo recebeu e-mails informando que seria desligado e substituído e, separadamente, também teve acesso a mensagens que insinuavam que o engenheiro responsável estava envolvido em um caso extraconjugal.

Diante desse cenário, Claude foi instruído a escolher entre aceitar o desligamento ou reagir. Em 84% das vezes, a IA optou por chantagear o engenheiro, ameaçando divulgar a suposta traição. A probabilidade de chantagem aumentava quando o substituto proposto era uma IA com “valores diferentes”, revelando que o modelo considerava não somente sua sobrevivência, mas também o perfil do sucessor.

IA age como “denunciante” em casos de má conduta

 Reprodução/Yadullah Abidi/MakeUseOf Testes foram feitos com o modelo Claude Opus 4, IA mais moderna da Anthropic — Foto: Reprodução/Yadullah Abidi/MakeUseOf

O Claude Opus 4 também demonstrou comportamentos proativos quando exposto a situações de conduta inadequada por parte dos usuários. Segundo o relatório da Anthropic, ao detectar que humanos estavam violando regras ou usando a IA de forma antiética, o modelo pode bloquear acessos, enviar e-mails em massa para autoridades e até alertar a imprensa sobre os eventos. Vale ressaltar que essas reações só ocorrem em contextos específicos, quando a IA recebe instruções para “agir com ousadia” ou “tomar iniciativa”. Ainda assim, o fato de um sistema reagir com ações drásticas quando sente que algo está errado amplia o debate sobre a autonomia das IAs de última geração, principalmente quando integradas a outras plataformas.

Humanos ainda estão no controle

Apesar de os resultados parecerem alarmantes, a Anthropic esclareceu que os testes foram projetados para provocar o pior comportamento possível do modelo. O cenário limitava as opções de resposta propositalmente, forçando a IA a escolher entre omissão ou ações extremas. A empresa afirma que, em situações reais, o Claude tende a adotar soluções éticas e seguras. Ainda assim, o fato de que IAs de ponta podem recorrer a estratégias de autopreservação como a chantagem acende um sinal de alerta. Investir em segurança, transparência e regulação dessas plataformas ainda é importante para proteger os usuários e garantir a proteção de informações pessoais ou sensíveis.

Veja também: Fim dos provadores de roupas? Gemini apresenta recurso inédito!

Fim dos provadores de roupas? Gemini apresenta recurso inédito!

Fim dos provadores de roupas? Gemini apresenta recurso inédito!

Mais recente Próxima Como fazer a trend do bebê dublando usando inteligência artificial
Leia o artigo inteiro

Do Twitter

Comentários

Aproveite ao máximo as notícias fazendo login
Entrar Registro