关于使用环境中心的非常酷和全面的文章 :)
Stefano Fiorucci
Stefano Fiorucci9月4日 23:32
终于探索了 @PrimeIntellect Environments Hub! 这是一个分享 RL 环境以训练/评估 LLMs/Agents 的平台,保持开放。 写了一篇关于 Environments Hub + 验证器 (@willccbb) 的指南, 从基础到评估和 @kalomaze 的字母排序环境中的 GRPO 训练。 👇
7.74K