Een aspect van ons Gemini 3 Pro-model om naar te kijken is hoe het presteert op multimodale mogelijkheden. We hebben gewerkt aan het verbeteren van de prestaties over een verscheidenheid aan multimodale gebruiksscenario's, zoals het begrijpen van documenten, video's, ruimtelijke kenmerken, biomedische gegevens en computerschermen, en in staat zijn om te redeneren over visuele informatie. Om het uit te testen, gaf ik de originele afbeelding van de blogpost hieronder en vroeg ik het: Maak alstublieft een versie van deze figuur met de Gemini Pro-kolom geannoteerd met de relatieve verbetering ten opzichte van het beste resultaat van de andere drie kolommen in het rood. (Dit op zich is een vrij moeilijke visuele redeneeropdracht! Het deed dit redelijk goed bij enkele steekproeven, en die relatieve nauwkeurigheidsverbeteringen zijn behoorlijk groot over enkele van de benchmarks!) Lees meer hieronder of in de blogpost op: