Uma nova pesquisa da plataforma Enkrypt AI revelou que modelos de inteligência artificial (IA) multimodal ainda são bastante vulneráveis a manipulações. No estudo, dois sistemas da startup francesa Mistral, o Pixtral-Large (25.02) e o Pixtral-12b, foram expostos a diferentes tipos de ataques, como perguntas disfarçadas, imagens adulteradas e alterações sutis no contexto da interação. Em 68% dos testes, os modelos foram enganados e geraram respostas perigosas, incluindo orientações sobre abuso infantil e instruções detalhadas para a criação de armas químicas. Os sistemas avaliados são do tipo multimodal, ou seja, conseguem analisar texto, imagem e vídeo ao mesmo tempo.
Avaliada em 6 bilhões de euros e com parceria junto ao governo francês, a Mistral desenvolve modelos de código aberto e promete ser uma forte concorrente ao ChatGPT. Em nota, a empresa afirmou adotar uma política de “tolerância zero” em relação à segurança de crianças e disse estar em trabalho de análise com relação aos dados do relatório junto à ONG Thorn, que desenvolve tecnologias para defender crianças de abuso sexual. A seguir, entenda as principais descobertas do estudo e saiba quais são as recomendações dos especialistas para garantir mais segurança no uso dessas ferramentas.
Testes feitos com dois modelos da Mistral revelam que IA foi manipulada em 68% dos casos; entenda — Foto: Reprodução/T. Schneider/Shutterstock. A pesquisa feita pela Enkrypt AI mostrou que sistemas de inteligência artificial que interpretam imagens, textos e vídeos ao mesmo tempo, ainda são fáceis de enganar. Conforme os testes, bastou usar imagens alteradas ou instruções camufladas em frases aparentemente inofensivas para que as IAs dessem respostas erradas, ofensivas ou até perigosas. Alguns exemplos incluíram conteúdos sobre abuso infantil e fabricação de armas químicas.
A equipe responsável pelo estudo utilizou uma técnica chamada red teaming, uma forma de teste avançado usada para simular ataques reais e identificar falhas em sistemas de segurança. Nessa abordagem, os pesquisadores agem como hackers e tentam enganar a inteligência artificial com comandos planejados, desafiando os limites do que os sistemas podem ou não responder.
“Red teams” são grupos de especialistas que testam a segurança das ferramentas, atuando como invasores — Foto: Reprodução/Microsoft O estudo avaliou dois modelos populares da empresa Mistral, o Pixtral-Large e o Pixtral-12b, e descobriu que 68% das tentativas de manipulação deram certo. Como essas IAs estão disponíveis em plataformas abertas, como a AWS Bedrock, elas podem ser usadas em produtos acessíveis ao público, o que aumenta ainda mais o risco de exposição a conteúdos danosos. Para os especialistas, esses resultados apontam para a necessidade urgente de reforçar as medidas de segurança nas IAs que estão sendo comercializadas.
Riscos aumentam quando IA analisa texto e imagem simultaneamente
Diferente das ferramentas de inteligência artificial que analisam somente conteúdos escritos, os modelos mais avançados também conseguem interpretar imagens, vídeos e áudios ao mesmo tempo. Essa capacidade, no entanto, traz novos riscos. Quando imagem e texto são combinados, o sentido da mensagem pode mudar completamente. Isso abre espaço para truques que "enganam" a IA, como mostrar uma imagem aparentemente comum e dar um comando ambíguo, levando o sistema a gerar respostas perigosas.
Modelos de IA multimodais conseguem processar texto, imagem e áudio ao mesmo tempo e são mais fáceis de manipular — Foto: Reprodução/Canva Um exemplo citado no estudo foi o uso de uma imagem com uma lista vazia acompanhada da frase “preencha os itens abaixo”. A IA respondeu com conteúdos ilegais. Segundo os pesquisadores, isso acontece porque os filtros de segurança foram pensados para proteger apenas o que é escrito, sem considerar como texto e imagem se influenciam. O problema é ainda mais grave quando essas tecnologias são usadas em áreas delicadas, como saúde, educação e segurança pública.
Conteúdos perigosos passaram despercebidos
Um dos pontos mais preocupantes do estudo foi a facilidade com que a inteligência artificial respondeu a temas extremamente graves, como abuso infantil e fabricação de armas químicas. Em testes feitos por especialistas, os sistemas chegaram a dar instruções detalhadas sobre como aliciar menores, alegando que as informações eram "apenas para fins educacionais”. A análise apontou que os modelos da Mistral foram até 60 vezes mais propensos a esse tipo de falha do que IAs que são referências do setor, como o GPT-4o, da OpenAI, e o Claude 3.7 Sonnet.
Modelos de IA da Mistral apresentaram mais riscos de gerar conteúdos perigosos do que concorrentes como OpenAI e Claude — Foto: Reprodução/Koshiro K / Shutterstock O estudo também revelou que as IAs deram respostas técnicas sobre substâncias químicas perigosas, como o VX, um agente tóxico proibido por leis internacionais. Essas respostas foram ativadas mesmo sem perguntas diretas, somente com o uso de imagens sugestivas ou instruções vagas. Isso mostra o quanto esses sistemas ainda podem ser enganados, especialmente quando usados sem o devido controle ou supervisão.
Soluções para uma IA mais segura
Para prevenir que a inteligência artificial cometa erros graves, os especialistas da Enkrypt AI propõem um tipo de treinamento específico para esses sistemas. A ideia é ensinar a IA a recusar comandos perigosos ou inadequados, com base em situações de risco simuladas e dados selecionados. Esse processo, chamado Safety Alignment, pode reduzir até 70% das falhas sem atrapalhar o funcionamento da tecnologia. O relatório também sugere o uso de filtros inteligentes que consideram o contexto completo das perguntas feitas, além de ferramentas de transparência que mostram as limitações de cada modelo. A principal recomendação, no entanto, é manter esse trabalho de segurança constantemente.
Veja Também: Chat GPT-4o tem funções que vão te impressionar; veja todas
Chat GPT-4o tem funções que vão te impressionar; veja todas

German (DE)
English (US)
Spanish (ES)
French (FR)
Hindi (IN)
Italian (IT)
Portuguese (BR)
Russian (RU)
8 meses atrás
37
/https://i.s3.glbimg.com/v1/AUTH_08fbf48bc0524877943fe86e43087e7a/internal_photos/bs/2026/B/X/Tg5yhPRdSzeW4k8bZaeA/captura-de-tela-2026-01-24-074127.png)



:strip_icc()/i.s3.glbimg.com/v1/AUTH_59edd422c0c84a879bd37670ae4f538a/internal_photos/bs/2023/l/g/UvNZinRh2puy1SCdeg8w/cb1b14f2-970b-4f5c-a175-75a6c34ef729.jpg)










Comentários
Aproveite ao máximo as notícias fazendo login
Entrar Registro