我們介紹了一種更好的方法來收集使用GRPO後的訓練數據。向專家收集樣本是昂貴的,註釋預算有限。哪些示例實際上值得支付?我們發現,專注於困難樣本可以帶來30-40%的改善。 1/7
31.37K