Un aspect al modelului nostru Gemini 3 Pro de analizat este modul în care performează în capabilități multimodale. Am lucrat la a o face să funcționeze foarte bine în diverse cazuri de utilizare multimodale, cum ar fi înțelegerea documentelor, videoclipurilor, caracteristicilor spațiale, datelor biomedicale și scenelor de calculator, precum și capacitatea de a raționa despre informații vizuale. Ca să testez, am dat imaginea originală din postarea de pe blog de mai jos și am întrebat-o: Vă rugăm să faceți o versiune a acestei figuri cu coloana Gemini Pro adnotată cu îmbunătățirea relativă față de cel mai bun rezultat din celelalte trei coloane cu roșu (Aceasta în sine este o sarcină de raționament vizual destul de dificilă! S-a descurcat destul de bine în a face asta cu precizie la unele verificări punctuale, iar acele îmbunătățiri relative de acuratețe sunt destul de mari la unele dintre benchmark-uri!) Citiți mai multe mai jos sau în postarea de blog la: