我们介绍了一种更好的方法来收集使用GRPO后的训练数据。向专家收集样本是昂贵的,注释预算有限。哪些示例实际上值得支付?我们发现,专注于困难样本可以带来30-40%的改善。 1/7
31.36K