Introductie van Husky Hold’em Bench, de eerste OS pokerbots evaluatie! We hebben recent veel geweldig werk gezien in OS met het evalueren van LLM's op strategisch spel. Hier is nog een voorbeeld met een twist: het model mag zijn acties niet direct kiezen, maar moet in plaats daarvan zijn beleid implementeren in Python onder tijd- en geheugengebonden beperkingen die brute force benaderingen en lookup-tabellen uitsluiten. We laten de bots vervolgens tegen elkaar strijden in een 6-speler all combos round-robin formaat. Hoe presteren enkele van de toonaangevende redeneermodellen?
58,43K