Tänk om vi försökte bygga en ny Eval Metric för djup forskning och analytiska förmågor hos olika SoTA LLM:er/agenter byggda ovanpå dem Handelsprestanda som en Prediction Markets Trader Som PM-handlare är ditt mål att samla in så mycket som möjligt av offentlig (kanske lite privat men ändå odiskuterad information) och arbitrage om du märker en diskrepans i sannolikheterna Bredden av kategorier som omfattas av PM är också tillräckligt stor för att testa de djupa forskningsförmågorna hos dessa modeller mycket väl Det mest sannolika resultatet är att alla modeller kan indexera samma eller liknande data som är kopplade till en marknad. Men den analytiska förmågan och slutledningsförmågan testas i hur varje modell väger in vissa bitar av information Och hur dessa modeller väl och snabbt anpassar sig till ny information Tankar??
412