Vi introduserer Husky Hold'em Bench, den første OS-pokerbots-evalen! Vi har sett mye flott arbeid i OS i det siste med å unngå LLM-er på strategisk spilling. Her er en annen med en vri: modellen får ikke velge handlingene sine direkte, men må i stedet implementere policyen sin i python under tids- og minnebegrensninger som utelukker brute force-tilnærminger og oppslagstabeller. Vi setter deretter robotene opp mot hverandre i et 6-spillers alle kombinasjoner round-robin-format. Hvordan fungerer noen av de ledende resonneringsmodellene?
263