Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Presentamos Husky Hold’em Bench, ¡la primera evaluación de pokerbots de OS!
Hemos visto mucho trabajo excelente en OS recientemente sobre la evaluación de LLMs en juegos estratégicos.
Aquí hay otro con un giro: el modelo no puede elegir sus acciones directamente, sino que tiene que implementar su política en python bajo restricciones de tiempo y memoria que descartan enfoques de fuerza bruta y tablas de búsqueda.
Luego enfrentamos a los bots entre sí en un formato de todos los combos en un round-robin de 6 jugadores. ¿Cómo se desempeñan algunos de los modelos de razonamiento líderes?


58,44K
Parte superior
Clasificación
Favoritos