Представляем Husky Hold’em Bench, первый оценочный инструмент для покерных ботов на ОС! В последнее время мы видели много отличной работы в ОС по оценке LLM на стратегическом игровом процессе. Вот еще один с изюминкой: модель не может напрямую выбирать свои действия, а вместо этого должна реализовать свою политику на python в условиях временных и памятьных ограничений, которые исключают методы грубой силы и таблицы поиска. Затем мы ставим ботов друг против друга в формате кругового турнира на 6 игроков со всеми комбинациями. Как показывают себя некоторые из ведущих моделей рассуждений?
58,43K