Chúng tôi giới thiệu một công thức tốt hơn để thu thập dữ liệu sau đào tạo khi sử dụng GRPO. Việc thu thập mẫu từ các chuyên gia là tốn kém, ngân sách chú thích thì hạn chế. Những ví dụ nào thực sự đáng để chi tiền? Chúng tôi nhận thấy rằng việc tập trung vào các mẫu khó mang lại cải thiện từ 30-40%. 1/7
31,36K