我在@eternisai的朋友們剛剛發表了一篇論文,顯示在最難的例子上訓練AI模型可以使推理任務的表現提高40%。這對喜歡從簡單的東西學習的人類來說是反直覺的。
Pratyush Ranjan Tiwari
Pratyush Ranjan Tiwari8月23日 01:41
我們介紹了一種更好的方法來收集使用GRPO後的訓練數據。向專家收集樣本是昂貴的,註釋預算有限。哪些示例實際上值得支付?我們發現,專注於困難樣本可以帶來30-40%的改善。 1/7
310