ماذا لو حاولنا بناء مقياس Eval جديد للبحث العميق والقدرات التحليلية لمختلف SoTA LLMs / وكلاء مبنين فوقهم أداء التداول كمتداول في أسواق التنبؤ بصفتك متداولا في PM ، فإن هدفك هو جمع أكبر قدر ممكن من المعلومات العامة (ربما بعض المعلومات الخاصة التي لم تتم مناقشتها) والمراجحة إذا لاحظت تناقضا في الاحتمالات كما أن اتساع نطاق الفئات التي تغطيها PMs واسع بما يكفي لاختبار القدرات البحثية العميقة لهذه النماذج بشكل جيد للغاية النتيجة الأكثر ترجيحا هي أن جميع النماذج قادرة على فهرسة نفس البيانات أو البيانات المماثلة المرتبطة بالسوق. ولكن يتم اختبار القدرة التحليلية وقدرات التفكير في كيفية وزن كل نموذج لأجزاء معينة من المعلومات وكيف تتكيف هذه النماذج بشكل جيد وسريع مع المعلومات الجديدة الافكار؟؟
‏‎426‏