我在@eternisai的朋友们刚刚发表了一篇论文,显示在最难的例子上训练AI模型可以使推理任务的表现提高40%。这对喜欢从简单的东西学习的人类来说是反直觉的。
Pratyush Ranjan Tiwari
Pratyush Ranjan Tiwari8月23日 01:41
我们介绍了一种更好的方法来收集使用GRPO后的训练数据。向专家收集样本是昂贵的,注释预算有限。哪些示例实际上值得支付?我们发现,专注于困难样本可以带来30-40%的改善。 1/7
261