Wat als we een nieuwe Evaluatiemetriek zouden proberen te bouwen voor de diepe onderzoeks- en analytische vaardigheden van verschillende SoTA LLM's/Agents die bovenop hen zijn gebouwd? Handelsprestaties als een Trader op de Voorspellingsmarkten Als een PM-trader is jouw doel om zoveel mogelijk publieke (misschien enkele privé nog niet besproken stukjes informatie) te verzamelen en arbitrage te plegen als je een discrepantie in de waarschijnlijkheden opmerkt. De breedte van de categorieën die onder PM's vallen, is ook groot genoeg om de diepe onderzoeksvaardigheden van deze modellen goed te testen. De meest waarschijnlijke uitkomst is dat alle modellen in staat zijn om dezelfde of vergelijkbare gegevens die aan een markt zijn gekoppeld te indexeren. Maar de analytische vaardigheden en redeneercapaciteiten worden getest in hoe elk model bepaalde stukjes informatie weegt. En hoe goed en snel deze modellen zich aanpassen aan nieuwe informatie. Gedachten??
401