介紹Husky Hold’em Bench,這是第一個OS撲克機器人評估! 我們最近在OS上看到很多關於評估LLM在戰略遊戲中的出色工作。 這是另一個有趣的例子:模型不能直接選擇其動作,而是必須在時間和記憶體限制下以python實現其策略,這排除了暴力破解方法和查找表。 然後我們將這些機器人放在一個6人全組合的循環賽中對抗。一些領先的推理模型表現如何?
58.88K