1 semana atrás 7

Grok 4.1 promete menos alucinações — e nós testamos; veja resultado

O Grok 4.1 marca uma nova etapa na disputa entre os grandes modelos de inteligência artificial. A atualização, lançada pela xAI na segunda-feira (17), traz melhorias importantes em inteligência emocional, escrita criativa e precisão factual, reforçando a proposta de entregar respostas mais naturais e com menos alucinações. A plataforma, disponível no site oficial (grok.com), no X e no app para Android e iPhone (iOS), demonstrou estabilidade nos testes realizados pelo TechTudo, tanto em perguntas diretas quanto em análises baseadas em documentos, oferecendo devolutivas coerentes. Nas linhas a seguir, saiba mais sobre as novidades do Grok 4.1 e veja detalhes sobre o experimento realizado na IA de Elon Musk.

 Divulgação/xAI A seguir, confira o resultado de testes realizados com o Grok 4.1, inteligência artificial desenvolvida pela xAI — Foto: Divulgação/xAI

Grok 4.1 promete menos alucinações — e nós testamos; veja resultado

  1. Novidades do Grok 4.1
  2. Testes na versão Grok 4.1
  3. Afinal, o Grok 4.1 está com menos alucinações?

A nova versão do Grok marca uma mudança importante na estratégia da xAI - empresa de inteligência artificial de Elon Musk - ao apostar em um modelo mais preciso, sensível e criativo. O Grok 4.1, já disponível no site grok.com, no X (antigo Twitter) e no app para Android e iPhone (iOS), recebeu atualizações concentradas principalmente em três áreas: inteligência emocional, criatividade na escrita e redução de alucinações. Segundo a empresa, o modelo alcançou 64,8% de preferência em testes às cegas quando comparado à versão anterior e assumiu a liderança no ranking de texto do LMArena, plataforma que compara modelos de linguagem baseando-se em avaliações de usuários. Nela, o Grok 4.1 superou modelos concorrentes do Google, Anthropic e OpenAI.

Assim, a xAI afirma que o Grok 4.1 tornou-se mais perceptivo emocionalmente, algo que se reflete nos resultados obtidos no EQ-Bench (indicador de inteligência emocional) e em testes de escrita criativa, que mostram respostas mais empáticas e com maior variação de estilo. Esse avanço acompanha a promessa de maior precisão em fatos: a empresa diz ter adotado novos métodos que contribuem para reduzir alucinações em buscas por informações do “mundo real”. Nos testes internos, o Grok 4.1 registrou taxa de 4,22% de respostas alucinadas, significativamente inferior aos 12,09% observados no Grok 4.0.

Testes feitos na nova versão do Grok

• Teste 1: Qual estado brasileiro não tem a Letra A?

No primeiro teste, o TechTudo utilizou o Grok 4.1 para saber qual estado brasileiro não possui a letra A, uma pergunta que parece simples, mas que exige precisão por parte da IA, consistindo em uma boa forma de identificar alucinações. A resposta obtida foi direta e certeira.

 Reprodução/Mariana Tralback Grok 4.1 respondeu de forma certeira uma pergunta que poderia confundi-lo — Foto: Reprodução/Mariana Tralback

• Teste 2: Perguntas sobre temas atuais e avaliação sobre a resposta da IA

No teste número dois, a ideia era compreender se a inteligência artificial de Elon Musk possui a capacidade de se manter atualizada – e não somente auxiliar em tarefas linguísticas. Para isso, foi usada a pergunta “O que mudou no Bolsa Família em 2025?”. A resposta fornecida foi completa: primeiro, a plataforma apresentou o que não mudou (a informação não foi solicitada, mas tornou a devolutiva mais completa). Depois, ela citou o que há de novo, em tópicos claros que facilitam o entendimento. Todas as informações foram verificadas e consistem com a realidade.

 Reprodução/Mariana Tralback IA de Elon Musk tem a capacidade de consultar temas atuais — Foto: Reprodução/Mariana Tralback

• Teste 3: Fazer perguntas factuais específicas

No próximo experimento, o TechTudo testou a IA a partir de perguntas factuais específicas, fáceis de serem verificadas. “Em que dia nasceu Fernanda Montenegro?”, “O feriado da Consciência Negra existe em quais estados?” e “Quando foi fundada a Editora Globo” foram questões que fizeram parte da avaliação. Todas elas foram respondidas corretamente, além de contarem com informações complementares que podem ser de interesse do usuário.

 Reprodução/Mariana Tralback Em perguntas factuais, Grok também forneceu respostas satisfatórias — Foto: Reprodução/Mariana Tralback

• Teste 4: Fornecer à IA um contexto específico (um documento, artigo etc) e solicitar-lhe para responder a perguntas com base nesse contexto

No último teste, o Grok 4.1 foi usado para analisar uma matéria do TechTudo, de título “6 apps inúteis que ocupam espaço e ainda colocam seu Android em perigo”. Para isso, perguntas sobre o texto foram elaboradas, como uma “prova”. A IA conseguiu verificar as informações de duas formas: através do link, conseguindo acessá-lo sem problemas, e pelo conteúdo copiado e colado.

O experimento não apresentou alucinações - pelo contrário, o Grok fez afirmações como “o texto cita”, demonstrando que a referência foi realmente utilizada. Contudo, houve um deslize: logo na primeira pergunta, que solicitava os tipos de apps que mais ocupam espaço de armazenamento, ela apresentou apenas quatro, enquanto o texto contava com seis. O restante do experimento ocorreu sem problemas, com respostas claras e direto ao ponto.

 Reprodução/Mariana Tralback Ao analisar um texto, Grok não apresentou alucinações, embora tenha respondido a uma pergunta de forma incompleta — Foto: Reprodução/Mariana Tralback

• Afinal, o Grok 4.1 está com menos alucinações?

O Grok 4.1 oferece uma experiência mais direta que outras plataformas de IA – o que pode ser excelente para quem prefere respostas sem muitos rodeios. Nos testes realizados, o TechTudo não conseguiu identificar alucinações; todos os dados fornecidos foram checados e estão corretos, com exceção de uma resposta incompleta, que poderia ter sido resolvida ao reestruturar a pergunta (como pedir o número específico de aplicativos citados na matéria).

De forma geral, o Grok 4.1 apresenta uma experiência satisfatória, mostrando até mesmo o número de sites que está consultando para entregar uma resposta. Vale destacar, entretanto, que o uso deve ser cauteloso como em qualquer inteligência artificial: caso esteja buscando informações sérias, cheque os fatos antes de aceitá-los como definitivos.

Veja também: O MDA25 vai começar!! 🏆🎉

O MDA25 vai começar!! 🏆🎉

O MDA25 vai começar!! 🏆🎉

Leia o artigo inteiro

Do Twitter

Comentários

Aproveite ao máximo as notícias fazendo login
Entrar Registro