Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Оказывается, ИИ уже может выполнять 65% профессиональных задач...
Nvidia привлекла 38 докторов наук и магистров делового администрирования, которые потратили более 10 часов на создание эталонов.
Они протестировали более 40 моделей на реальной работе. Не на академических упражнениях. На реальной работе, которую ежедневно выполняют младшие аналитики и исследователи.
GPT-5 набрал 65,9% в целом.
Они извлекают факты с точностью 64,4%. Нужно определить RTX как крупнейшего подрядчика Министерства обороны? Узнать, что IFFIm привлек $3,5 миллиарда через облигации на вакцины? Модели в основном извлекают конкретную информацию из документов, даже когда она скрыта среди десятков страниц.
Логическое рассуждение достигает 66,2%. Они могут следовать многоступенчатым выводам, правильно применять формулы, проверять причинно-следственные связи. Когда вам нужен систематический анализ с использованием установленных рамок, модели справляются в двух из трех случаев.
Сюрприз-победитель: консультационные рамки с точностью 80%. Модели успешно структурируют анализы выхода на рынок, конкурентные оценки и стратегические рекомендации. Они понимают, что Пять сил Портера — это не просто перечисление конкурентов, а анализ динамики переговорной силы.
Проблемы по химии? Уровень успеха 70,6%. Модели справляются с механизмами реакций, путями синтеза и расчетами равновесия, которые ставят в тупик большинство неспециалистов. Они рассчитывают молярность, предсказывают продукты, балансируют уравнения на уровне, который проходит аспирантские курсы.
Даже в финансах, где модели слабее с 63,7%, они успешно завершают большинство моделей оценки, интерпретируют структуры секьюритизации и пишут связные инвестиционные меморандумы. Это почти две трети финансового анализа на уровне MBA, выполненного правильно.
ProfBench раскрывает это, тестируя в четырех профессиональных областях по 7,347 критериям, написанным экспертами.
В отличие от узких эталонов, ограниченных одной областью, он охватывает широту знаний в работе. И за $12 за оценку (в сравнении с $8000 за PaperBench) любой исследователь может измерить реальные возможности.
Конечно, модели испытывают трудности с профессиональным форматированием (65,3%), физическими выводами (49,3%) и пока не могут просмотреть 1000 страниц. Но мы преодолели порог, когда ИИ правильно справляется с большинством профессиональных задач.
Не идеально. Не полностью. Но 65% достаточно, чтобы кардинально изменить то, как происходит работа с знаниями.

Топ
Рейтинг
Избранное

