Cuối cùng đã khám phá @PrimeIntellect Environments Hub! Một nền tảng để chia sẻ các môi trường RL cho việc huấn luyện/đánh giá LLMs/Agents, giữ mọi thứ mở Đã viết một hướng dẫn về Environments Hub + Verifiers (@willccbb), từ cơ bản đến đánh giá & huấn luyện GRPO trên môi trường sắp xếp chữ cái của @kalomaze. 👇
15,08K