Um aspecto do nosso modelo Gemini 3 Pro a ser observado é como ele se comporta em capacidades multimodais. Trabalhamos para que ele funcione muito bem em uma variedade de casos de uso multimodais, como compreensão de documentos, vídeos, características espaciais, dados biomédicos e cenas de computador, além de conseguir raciocinar sobre informações visuais. Para testar, forneci a imagem original do post do blog abaixo e perguntei: Por favor, faça uma versão desta figura com a coluna Gemini Pro anotada com a melhoria relativa em relação ao melhor resultado das outras três colunas em vermelho (Isso por si só é uma tarefa visual bastante difícil! Ele fez isso com precisão em algumas verificações pontuais, e essas melhorias relativas de precisão são bem grandes em alguns benchmarks!) Leia mais abaixo ou no post do blog em: