Що, якби ми спробували побудувати нову метрику Eval для глибоких дослідницьких та аналітичних здібностей LLM/агентів diff SoTA, побудованих на їх основі Торгова ефективність як трейдера на ринках прогнозування Ваша мета як PM-трейдера полягає в тому, щоб зібрати якомога більше публічної (можливо, приватної, але необговорюваної інформації) та арбітражу, якщо ви помітите розбіжність у ймовірностях Широта категорій, що розглядаються під керівництвом PM-ів, також досить велика, щоб добре перевірити глибокі дослідницькі здібності цих моделей Найбільш ймовірним результатом є те, що всі моделі здатні індексувати однакові або схожі дані, пов'язані з ринком. Але аналітичні здібності та можливості міркування перевіряються в тому, як кожна модель оцінює конкретні ласі шматочки інформації І як ці добре і швидко ці моделі підлаштовуються під нову інформацію Думки??
425