Presentamos Husky Hold’em Bench, ¡la primera evaluación de pokerbots de OS! Hemos visto mucho trabajo excelente en OS recientemente sobre la evaluación de LLMs en juegos estratégicos. Aquí hay otro con un giro: el modelo no puede elegir sus acciones directamente, sino que tiene que implementar su política en python bajo restricciones de tiempo y memoria que descartan enfoques de fuerza bruta y tablas de búsqueda. Luego enfrentamos a los bots entre sí en un formato de todos los combos en un round-robin de 6 jugadores. ¿Cómo se desempeñan algunos de los modelos de razonamiento líderes?
58,44K