Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Виявляється, штучний інтелект вже може виконувати 65% професійних завдань...
У Nvidia було 38 докторів наук і МВА, які витрачали по 10+ годин на створення бенчмарків.
Вони протестували 40+ моделей на реальній роботі. Не академічні вправи. Реальна робота, яку щодня виконують молодші аналітики та дослідники.
Загалом GPT-5 набрав 65,9%.
Вони витягують факти з точністю 64,4%. Потрібно визначити RTX як найбільшого підрядника Міністерства оборони? Виявилося, що IFFIm залучив 3,5 мільярда доларів через облігації на вакцину? Моделі в основному витягують конкретну інформацію з документів, навіть якщо вона похована на десятках сторінок.
Логічні міркування досягають 66,2%. Вони можуть слідувати багатоступінчастим виведенням, правильно застосовувати формули, перевіряти причинно-наслідкові ланцюжки. Коли потрібен систематичний аналіз за встановленими рамками, моделі дають два з трьох разів.
Несподіваний переможець: консалтингові фреймворки з точністю до 80%. Моделі успішно структурують аналіз входу на ринок, оцінки конкуренції та стратегічні рекомендації. Вони розуміють, що «П'ять сил» Портера не просто перераховують конкурентів, а аналізують динаміку переговорної сили.
Проблеми з хімією? Показник успіху 70,6%. Моделі обробляють механізми реакцій, шляхи синтезу та розрахунки рівноваги, які кидають виклик більшості неспеціалістів. Вони обчислюють молярність, прогнозують продукти, врівноважують рівняння на рівнях, які здають дипломні роботи.
Навіть у фінансовій сфері, де моделі слабші (63,7%), вони успішно завершують більшість моделей оцінки, інтерпретують структури сек'юритизації та пишуть зв'язні інвестиційні записки. Це майже дві третини фінансового аналізу на рівні MBA, обробленого правильно.
ProfBench виявляє це за допомогою тестування в чотирьох професійних доменах з 7 347 критеріями, написаними експертами.
На відміну від вузьких орієнтирів, обмежених окремими галузями, він охоплює широту знань роботи. І за ціною 12 доларів за оцінку (проти 8000 доларів за PaperBench) будь-який дослідник може виміряти реальні можливості.
Так, моделі мають проблеми з професійним форматуванням (65,3%), фізичними висновками (49,3%) і поки що не можуть прочесати 1000 сторінок. але ми перетнули поріг, коли штучний інтелект правильно справляється з більшістю професійних завдань.
Не ідеально. Не повністю. Але 65% достатньо, щоб докорінно змінити те, як відбувається робота зі знаннями.

Найкращі
Рейтинг
Вибране

