Na última quinta-feira, 10, uma publicação viralizou nary X (ex-Twitter), comparando o modelo de inteligência artificial Gemini, bash Google, que supostamente estaria vencendo o Claude, da Anthropic, em uma disputa curiosa: jogar a trilogia bash videogame Pokémon.
A comparação chamou a atenção dos usuários porque, enquanto o Gemini havia chegado até Lavender Town — uma cidade avançada nary jogo —, o Claude seguia travado nary Monte Moon desde o fim de fevereiro.
Gemini is virtually up of Claude atm successful pokemon aft reaching Lavender Town
119 unrecorded views lone btw, incredibly underrated watercourse pic.twitter.com/8AvSovAI4x
— Jush (@Jush21e8) April 10, 2025
Após o station repercutir, os usuários recorreram ao Reddit para apontar que a "disputa" poderia não ter sido totalmente justa.
De acordo com arsenic declarações, o Gemini contava com a ajuda de um minimapa personalizado, criado pelo desenvolvidor da transmissão realizada na Twitch, um recurso que ajudava o modelo a identificar "blocos" importantes nary jogo e facilitava arsenic decisões — algo que o Claude não tinha à disposição.
O caso reanimou discussões sobre os benchmarks utilizados para avaliar modelos de IA e o portal TechCrunch lembrou de dois episódios que já aconteceram em testes técnicos.
O primeiro caso destacado foi o da Anthropic, que obteve duas pontuações diferentes para o modelo Claude 3.7 Sonnet nary benchmark SWE-bench Verified. Ele alcançou 62,3% de precisão, mas chegou a 70,3% quando usaram um "andaime personalizado", uma ferramenta other criada pela empresa.
Já o segundo caso se trata da Meta, que ajustou uma versão bash modelo Llama 4 Maverick para melhorar seu desempenho nary teste LM Arena. A versão archetypal bash modelo teve uma pontuação significamente pior nary mesmo teste.

German (DE)
English (US)
Spanish (ES)
French (FR)
Hindi (IN)
Italian (IT)
Portuguese (BR)
Russian (RU)
11 meses atrás
17





:strip_icc()/i.s3.glbimg.com/v1/AUTH_59edd422c0c84a879bd37670ae4f538a/internal_photos/bs/2023/l/g/UvNZinRh2puy1SCdeg8w/cb1b14f2-970b-4f5c-a175-75a6c34ef729.jpg)



:strip_icc()/i.s3.glbimg.com/v1/AUTH_08fbf48bc0524877943fe86e43087e7a/internal_photos/bs/2024/o/u/v2hqAIQhAxupABJOskKg/1-captura-de-tela-2024-07-19-185812-39009722.png)






Comentários
Aproveite ao máximo as notícias fazendo login
Entrar Registro