GRPOを使用した場合の学習後データを収集するためのより良いレシピを紹介します。専門家からサンプルを収集するのは費用がかかり、注釈の予算も限られています。実際にお金を払う価値のある例はどれですか?ハードサンプルに焦点を当てると、30〜40%の改善が得られることがわかりました。 1/7
31.37K