En aspekt av vår Gemini 3 Pro-modell att titta på är hur den presterar i multimodala funktioner. Vi har arbetat med att få den att fungera riktigt bra inom en rad multimodala användningsområden, som förståelse av dokument, videor, rumsliga egenskaper, biomedicinska data och datoranalyser, samt att kunna resonera kring visuell information. För att testa det gav jag originalbilden från blogginlägget nedan och frågade: Vänligen gör en version av denna figur med Gemini Pro-kolumnen annoterad med relativ förbättring jämfört med bästa resultat från de andra tre kolumnerna i rött (Detta i sig är en ganska svår visuell resonemangsuppgift! Den gjorde detta ganska bra på att göra detta exakt vid stickprov, och de relativa förbättringarna i noggrannhet är ganska stora över vissa av benchmarkarna!) Läs mer nedan eller i blogginlägget på: