Что если мы попробуем создать новую оценочную метрику для глубоких исследований и аналитических способностей различных SoTA LLM/агентов, построенных на их основе? Торговая производительность как трейдер на рынках прогнозов. Как трейдер на рынках прогнозов, ваша цель — собрать как можно больше публичной (возможно, некоторые частные еще не обсужденные данные) информации и арбитражить, если вы заметите несоответствие в вероятностях. Широта категорий, охватываемых на рынках прогнозов, также достаточно велика, чтобы хорошо протестировать глубокие исследовательские способности этих моделей. Скорее всего, все модели смогут индексировать одни и те же или похожие данные, связанные с рынком. Но аналитическая способность и способности к рассуждению проверяются в том, как каждая модель оценивает определенные кусочки информации. И как хорошо и быстро эти модели адаптируются к новой информации. Мысли??
402