Jedním z aspektů našeho modelu Gemini 3 Pro, na který se můžeme zaměřit, je, jak si vede v multimodálních funkcích. Pracovali jsme na tom, aby fungoval opravdu dobře napříč různými multimodálními případy použití, jako je porozumění dokumentům, videím, prostorovým charakteristikám, biomedicínským datům a počítačové technice, a schopnost uvažovat o vizuálních informacích. Abych to otestoval, dal jsem původní obrázek z blogového příspěvku níže a zeptal se ho: Prosím, vytvořte verzi této figurky s sloupcem Gemini Pro označeným relativním zlepšením oproti nejlepšímu výsledku z ostatních tří sloupců červeně (To samo o sobě je docela obtížný úkol vizuálního uvažování! Na některých kontrolách se to docela dobře povedlo a tyto relativní zlepšení přesnosti jsou v některých benchmarkech opravdu výrazná!) Přečtěte si více níže nebo v blogovém příspěvku na: