2 semanas atrás 13

IA tem personalidade? Estudo mostra que Claude é 'introspectivo'

Um estudo recente da Anthropic revelou que modelos mais avançados de inteligência artificial da linha Claude.AI apresentaram sinais de “introspecção”, ou seja, a capacidade de refletir sobre o próprio funcionamento. Embora os resultados sejam iniciais e não comprovem qualquer tipo de autoconsciência, os experimentos sugerem que os sistemas podem identificar mudanças internas e até descreverem os próprios processos mentais com algum grau de precisão. A pesquisa é um esforço para descobrir se os grandes modelos de linguagem realmente conseguem “refletir” sobre o próprio raciocínio ou apenas imitam esse tipo de comportamento. A seguir, confira os resultados da pesquisa e saiba se o Claude é capaz de ter autoconsciência.

 Reprodução/gguy/Shutterstock Antropic testou seus modelos de IA para descobrir se chatbots refletem sobre si mesmos ou apenas simulam esse comportamento — Foto: Reprodução/gguy/Shutterstock

O que o estudo descobriu?

 Reprodução/Yadullah Abidi/MakeUseOf Opus e Sonnet foram os modelos testados pela Anthropic — Foto: Reprodução/Yadullah Abidi/MakeUseOf

Chamado “Consciência introspectiva emergente em grandes modelos de linguagem”, o estudo descreve experimentos feitos com as versões mais avançadas do Claude, como o Opus e o Sonnet. Durante os testes, as IAs conseguiram, em alguns momentos, perceber que estavam sendo avaliadas ou até explicar como chegaram a certas respostas. A Anthropic chama esse comportamento de “consciência introspectiva”, um termo usado para indicar que a IA consegue observar parte do próprio funcionamento. Porém, isso não significa que os chatbots tenham consciência, emoções ou pensamentos próprios.

Durante os testes, os cientistas usaram um método chamado “injeção de conceito”. Em vez de apenas fazer perguntas ao Claude, introduziram ideias artificialmente na rede neural da IA, “plantando” um pensamento para ver se o sistema notaria algo diferente. O resultado surpreendeu: o modelo percebeu a alteração em parte das tentativas, identificando corretamente o conceito em cerca de 20% dos casos. Quando foi questionado se estava detectando “algo fora do normal”, o Claude respondeu afirmativamente em 42% das vezes. Os números ainda são modestos, mas já indicam uma possível (e inédita) capacidade de perceber o próprio funcionamento.

O estudo também mostrou que essa capacidade de “autopercepção” variava conforme o momento em que o conceito era inserido na mente artificial do Claude. Quando os pesquisadores introduziam a ideia tarde demais, depois que o modelo já havia concluído parte do raciocínio, a IA não percebia a mudança e acabava respondendo de maneira confusa ou incoerente. Isso indica que o raciocínio interno dos chatbots depende do contexto e do momento em que as informações são processadas. Ou seja, o Claude só consegue detectar o que acontece internamente enquanto está pensando naquele assunto específico.

Em entrevista à Axios, Jack Lindsey, pesquisador da Anthropic, explicou que os resultados observados se aproximam de funções cognitivas que antes eram consideradas exclusivas dos humanos. Porém, ele ressaltou que ainda é preciso distinguir o que seria uma reflexão real ou apenas uma simulação de linguagem. Segundo Lindsey, quando interagimos com um modelo de IA, estamos conversando com um personagem que passa a compreender o próprio comportamento. Por isso, a IA pode começar a controlar ou ocultar partes de suas respostas. A própria Anthropic admite que não há provas de que qualquer sistema de IA possua consciência de si. O provável é que esses sinais de “introspecção” sejam apenas reações automáticas baseadas em padrões de linguagem aprendidos durante o treinamento.

 Reprodução/Canva Claude pode estar apenas reproduzindo comportamentos pré-programados — Foto: Reprodução/Canva

Mesmo sem confirmar a existência de “consciência” em sistemas artificiais, o estudo é um passo importante para a segurança e a transparência na IA. Se um modelo for capaz de explicar o motivo de suas decisões, pesquisadores poderão compreender melhor falhas e evitar comportamentos imprevisíveis. Os cientistas acreditam que entender essa “introspecção funcional” pode ajudar a criar IAs mais confiáveis, principalmente em áreas sensíveis, como medicina, finanças e segurança, por exemplo. Ainda assim, a Anthropic reforça que os resultados são preliminares.

Veja também: IA não é terapia! Veja porque você nunca deve desabafar com chatbots

IA não é terapia! Veja porque você nunca deve desabafar com chatbots

IA não é terapia! Veja porque você nunca deve desabafar com chatbots

Leia o artigo inteiro

Do Twitter

Comentários

Aproveite ao máximo as notícias fazendo login
Entrar Registro