Co kdybychom zkusili vytvořit novou Eval Metric pro hluboký výzkum a analytické schopnosti diff SoTA LLM/Agents postavené na nich Obchodní výkonnost obchodníka s predikčními trhy Jako PM obchodník je vaším cílem shromáždit co nejvíce veřejných (možná nějakých soukromých, ale nediskutovaných informací) a arbitráže, pokud si všimnete nesrovnalosti v pravděpodobnostech Šíře kategorií zahrnutých v PM je také dostatečně obrovská, aby velmi dobře otestovala hluboké výzkumné schopnosti těchto modelů Nejpravděpodobnějším výsledkem je, že všechny modely budou schopny indexovat stejná nebo podobná data spojená s trhem. Analytické schopnosti a schopnosti uvažování se však testují v tom, jak každý model váží konkrétní kousky informací A jak se tyto modely dobře a rychle přizpůsobují novým informacím Myšlenky??
315