¡Presentamos Husky Hold'em Bench, la primera evaluación de pokerbots con sistema operativo! Recientemente hemos visto un gran trabajo en OS sobre evadir LLM en el juego estratégico. Aquí hay otro con un giro: el modelo no puede elegir sus acciones directamente, sino que tiene que implementar su política en Python bajo restricciones de tiempo y memoria que descartan los enfoques de fuerza bruta y las tablas de búsqueda. Luego enfrentamos a los bots entre sí en un formato de todos contra todos de 6 jugadores. ¿Cómo funcionan algunos de los principales modelos de razonamiento?
274