Por multimodal, entenda que é um sistema que foi treinado com áudio, imagem e texto ao mesmo tempo, o que permite que ele entenda, por exemplo, problemas matemáticos que estejam em uma folha impressa anotada.

Na prática, você consegue subir um arquivo de áudio, imagem ou texto e o sistema vai entender do que se trata. A partir disso, você poderá fazer perguntas.
A demonstração chama a atenção, pois mostra como o uso da inteligência artificial poderá auxiliar no trabalho de professores da área de exatas — segmento que até então os sistemas de inteligência artificial costumavam ir mal, pois boa parte dos modelos disponíveis tinha sido treinada apenas com texto.
Outra área de influência é a programação. O Google explicou que o Gemini consegue criar códigos avançados nas linguagens Python, C++, Go e Java.
Com isso, o Google quer se diferenciar da OpenAI, que faz o ChatGPT.
Comentários
Aproveite ao máximo as notícias fazendo login
Entrar Registro