熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
我在@eternisai的朋友們剛剛發表了一篇論文,顯示在最難的例子上訓練AI模型可以使推理任務的表現提高40%。這對喜歡從簡單的東西學習的人類來說是反直覺的。

8月23日 01:41
我們介紹了一種更好的方法來收集使用GRPO後的訓練數據。向專家收集樣本是昂貴的,註釋預算有限。哪些示例實際上值得支付?我們發現,專注於困難樣本可以帶來30-40%的改善。
1/7

310
熱門
排行
收藏