У нас слишком много эталонов по способности моделей и слишком мало по агентной работе. Все большее значение в экономике имеет не способность ИИ правильно ответить на вопрос через API-вызов, а его способность комбинировать инструменты и решать проблемы. Это недооценено.
Модель, которая слабее по способности, но может понять, когда она ошибается, и хорошо использует другие подходы, чтобы преодолеть свои слабости, гораздо более практична, чем модель, которая набирает на несколько баллов больше на Последнем Экзамене Человечества. Но наше тестирование этого не учитывает.
Нам также нужно лучшее бенчмаркинг, который указывает на то, ПОЧЕМУ агентные способности дают сбой. Например, зрение является очевидной слабой точкой для моделей, что объясняет множество неудач агентов при взаимодействии с реальным миром. Но также существуют "петли судьбы", когда ИИ продолжает пытаться делать одно и то же.
Тот факт, что работа вымышленного торгового автомата является основным критерием, используемым при анонсе крупных новых моделей ИИ, показывает, где мы находимся. Это не плохой тест (на самом деле он очень интересный), но неясно, что он измеряет, и нам нужно гораздо больше разнообразия задач.
30,05K