Présentation de Husky Hold’em Bench, le premier évaluation de pokerbots OS ! Nous avons récemment vu beaucoup de bons travaux en OS sur l'évaluation des LLMs dans le jeu stratégique. Voici un autre avec une tournure : le modèle ne peut pas choisir ses actions directement mais doit plutôt mettre en œuvre sa politique en python sous des contraintes de temps et de mémoire qui excluent les approches de force brute et les tables de recherche. Nous mettons ensuite les bots les uns contre les autres dans un format de round-robin à 6 joueurs avec toutes les combinaisons. Comment certains des modèles de raisonnement les plus avancés se comportent-ils ?
272