介绍Husky Hold’em Bench,这是第一个OS扑克机器人评估! 我们最近在OS上看到很多关于评估LLM在战略游戏中的出色工作。 这是另一个有趣的例子:模型不能直接选择其动作,而是必须在时间和内存限制下以python实现其策略,这排除了暴力破解方法和查找表。 然后我们将这些机器人放在一个6人全组合的循环赛中对抗。 一些领先的推理模型表现如何?
58.88K