@eternisai の友人は、最も難しい例で AI モデルをトレーニングすると、推論タスクのパフォーマンスが 40% 向上することを示す論文を発表しました。これは、簡単なもので学ぶのが好きな人間にとっては直感に反します。
Pratyush Ranjan Tiwari
Pratyush Ranjan Tiwari8月23日 01:41
GRPOを使用した場合の学習後データを収集するためのより良いレシピを紹介します。専門家からサンプルを収集するのは費用がかかり、注釈の予算も限られています。実際にお金を払う価値のある例はどれですか?ハードサンプルに焦点を当てると、30〜40%の改善が得られることがわかりました。 1/7
281