Finalmente explorei o @PrimeIntellect Environments Hub! Uma plataforma para compartilhar ambientes RL para treinar/evaluar LLMs/Agentes, mantendo as coisas abertas. Escrevi um guia sobre o Environments Hub + Verificadores (@willccbb), do básico às avaliações e treinamento GRPO no ambiente de ordenação do alfabeto do @kalomaze. 👇
14,79K