¡Finalmente exploré el Hub de Entornos de @PrimeIntellect! Una plataforma para compartir entornos de RL para entrenar/evaluar LLMs/Agentes, manteniendo las cosas abiertas. Escribí una guía sobre el Hub de Entornos + Verificadores (@willccbb), desde lo básico hasta evaluaciones y entrenamiento GRPO en el entorno de orden alfabético de @kalomaze. 👇
14,79K