Introductie van Husky Hold’em Bench, de eerste OS pokerbots evaluatie! We hebben recent veel geweldig werk gezien in OS met het evalueren van LLM's op strategisch spelgedrag. Hier is nog een voorbeeld met een twist: het model mag zijn acties niet direct kiezen, maar moet in plaats daarvan zijn beleid implementeren in Python onder tijd- en geheugengebonden beperkingen die brute force benaderingen en opzoektabellen uitsluiten. We laten de bots vervolgens tegen elkaar strijden in een 6-speler all combos round-robin formaat. Hoe presteren enkele van de toonaangevende redeneer modellen?
270