3 dias atrás 16

Ex-diretora da OpenAI anuncia IA que age sem esperar comandos

Só para assinantes

A saída de Mira Murati da OpenAI, em 2024, foi uma das maiores baixas executivas do setor de IA naquele ano. A então CTO da empresa fundou no ano seguinte a Thinking Machines Lab (TML), que agora apresenta sua maior contribuição até aqui: uma ferramenta que trabalha junto com o usuário em tempo real.

O que aconteceu

A empresa divulgou na segunda (11) uma prévia de pesquisa que vai na contramão dos modelos atuais. Hoje, o padrão é o trabalho em turnos: você fala, o modelo processa e responde, e só então está pronto para ouvir de novo.

A TML chama isso de "gargalo de colaboração". A proposta é eliminá-lo construindo a interatividade dentro do próprio modelo, não como componente externo.

Na prática, o sistema processa voz, vídeo e texto em blocos de 200 milissegundos. Enquanto o usuário fala, o modelo ouve; enquanto o modelo responde, o usuário pode interromper, e a máquina continua ouvindo.

O modelo também reage a sinais visuais sem ser perguntado. Se você estiver fazendo flexões, ele pode decidir contar seus exercícios; se um programador digitar um bug, ele detecta na hora.

Para tarefas mais pesadas, como pesquisas na web, o sistema aposta em outro modelo rodando em paralelo, em segundo plano. Quando o resultado chega, é incorporado ao diálogo sem pausa brusca de processamento.

Segundo a própria TML, os resultados mostram desempenho acima dos rivais da OpenAI e do Google em métricas de interatividade, como latência e reação a mudanças visuais.

Um detalhe técnico vale registro: o modelo tem 276 bilhões de parâmetros no total, mas usa apenas 12 bilhões por vez na inferência. É uma escolha que equilibra capacidade com velocidade de resposta.

O laboratório reconhece limitações. Sessões muito longas exigem gerenciamento cuidadoso de contexto, a qualidade depende de boa conexão, e escalar para versões maiores ainda é um desafio.

Continua após a publicidade

A prévia está sendo liberada a pesquisadores em etapas, com abertura mais ampla prevista para o segundo semestre.

IAgora?

Diversas ferramentas de IA já desempenham, separadamente, funções prometidas pela TML, como tradução simultânea e reconhecimento de imagens. Unir tudo isso em um mesmo ecossistema, como a empresa promete, seria sem dúvida um avanço na área.

Pelos vídeos divulgados, a ferramenta pode parecer mais um "brinquedo multimilionário". Uma das gravações mostra três usuários fazendo perguntas seguidas, mesmo enquanto a IA responde outras já feitas.

Esse uso dificilmente tem utilidade na vida real, mas prova que a IA continua detectando e processando fala mesmo durante as respostas. Isso vai muito além da "troca de turnos" atual, em que cada lado espera o outro terminar.

Com a superação das limitações técnicas, as aplicações no mundo real ganhariam peso. Imagine uma máquina da TML treinada em uma cirurgia específica, acompanhando visualmente um médico em operação -- ela poderia, em teoria, detectar sozinha uma anomalia ou um procedimento incorreto e avisar antes do erro.

Claro, o conhecimento humano especializado segue essencial. As ferramentas de IA, cada vez mais poderosas, continuam suscetíveis a erros perigosos -- inclusive a própria novidade da TML.

Isso pode parecer só um alerta, mas acompanha a proposta oficial da empresa: não transformar a IA em substituta de humanos nem em mera seguidora de ordens. Para a TML, a inteligência artificial deve representar uma relação de colaboração com o usuário. É esperar para ver.

O que o mundo está dizendo sobre isso

O TML de Murati tem se mantido relativamente discreto desde sua criação, mas os modelos de interação são um dos primeiros grandes diferenciais do laboratório: modelos projetados em torno de como as pessoas naturalmente trabalham juntas, e não por quanto tempo um agente consegue operar sozinho. Resta saber se ele conquistará seu próprio mercado ou será absorvido pela próxima atualização de um laboratório de ponta.
The Rundown AI

Então, o que pensar disso? Não temos certeza. Os resultados são impressionantes e a ideia subjacente -- de que a interatividade deve ser inerente ao modelo -- é definitivamente interessante. Se a experiência no mundo real corresponde às afirmações técnicas, só saberemos quando as pessoas puderem realmente usá-la.
TechCrunch

Continua após a publicidade

Uma das mudanças mais sutis envolve os pequenos gestos de reconhecimento que os humanos fazem constantemente durante uma conversa, como acenar com a cabeça, dizer "hum-hum" ou reagir brevemente enquanto outra pessoa está falando. A prévia do Thinking Machines parece demonstrar os primeiros sinais desse comportamento.
NDTV World

Se disponibilizados para o setor empresarial, os modelos de interação da Thinking Machines representariam uma mudança fundamental na forma como as empresas integram a IA em seus fluxos de trabalho operacionais. Um modelo de interação nativo como o TML-Interaction-Small permite diversas funcionalidades empresariais que atualmente são impossíveis ou muito frágeis com modelos multimodais padrão.
VentureBeat

Reportagem

Texto que relata acontecimentos, baseado em fatos e dados observados ou verificados diretamente pelo jornalista ou obtidos pelo acesso a fontes jornalísticas reconhecidas e confiáveis.