Один із аспектів нашої моделі Gemini 3 Pro — це те, як вона працює в мультимодальних можливостях. Ми працювали над тим, щоб він працював дуже добре в різних мультимодальних сценаріях, таких як розуміння документів, відео, просторових характеристик, біомедичних даних і комп'ютерних досліджень, а також можливість осмислення візуальної інформації. Щоб перевірити, я дав оригінальне зображення з блогу нижче і запитав: Будь ласка, зробіть версію цієї фігури з колонкою Gemini Pro, позначеною відносним покращенням порівняно з найкращим результатом з інших трьох колонок червоним (Це саме по собі досить складне завдання візуального мислення! Він досить добре справлявся з цим на точкових перевірках, і ці покращення відносної точності досить значні для деяких бенчмарків!) Читайте більше нижче або в блозі за адресою: