Einführung von Husky Hold’em Bench, dem ersten OS-Pokerbot-Evaluierung! Wir haben in letzter Zeit viel großartige Arbeit im OS gesehen, die sich mit der Evaluierung von LLMs im strategischen Gameplay beschäftigt. Hier ist eine weitere mit einem Twist: Das Modell darf seine Aktionen nicht direkt wählen, sondern muss stattdessen seine Strategie in Python unter Zeit- und Speicherbeschränkungen umsetzen, die brutale Ansätze und Nachschlagetabellen ausschließen. Wir lassen die Bots dann in einem 6-Spieler-All-Combos-Round-Robin-Format gegeneinander antreten. Wie schneiden einige der führenden Denkmodelle ab?
276