Présentation de Husky Hold’em Bench, le premier évaluation de pokerbots OS !
Nous avons récemment vu beaucoup de travaux intéressants en OS sur l'évaluation des LLMs dans le cadre de jeux stratégiques.
Voici un autre exemple avec une tournure : le modèle ne peut pas choisir ses actions directement, mais doit plutôt mettre en œuvre sa politique en python sous des contraintes de temps et de mémoire qui excluent les approches de force brute et les tables de consultation.
Nous mettons ensuite les bots les uns contre les autres dans un format de round-robin à 6 joueurs avec toutes les combinaisons. Comment certains des modèles de raisonnement les plus avancés se comportent-ils ?
Présentation de Husky Hold’em Bench, le premier évaluation de pokerbots OS !
Nous avons récemment vu beaucoup de bons travaux en OS sur l'évaluation des LLMs dans le jeu stratégique.
Voici un autre avec une tournure : le modèle ne peut pas choisir ses actions directement mais doit plutôt mettre en œuvre sa politique en python sous des contraintes de temps et de mémoire qui excluent les approches de force brute et les tables de recherche.
Nous mettons ensuite les bots les uns contre les autres dans un format de round-robin à 6 joueurs avec toutes les combinaisons. Comment certains des modèles de raisonnement les plus avancés se comportent-ils ?
Hermes-4-14B a été publié !
Notre LLM le plus compact de la série Hermes 4 est utilisable localement et optimisé pour le matériel grand public, offrant un accès à domicile à son puissant raisonnement hybride et à l'appel d'outils.
Le modèle est maintenant disponible sur Nous Chat pour une utilisation en ligne et téléchargeable sur HuggingFace.