نقدم وصفة أفضل لجمع بيانات ما بعد التدريب عند استخدام GRPO. يعد جمع العينات من الخبراء مكلفا ، وميزانيات التعليقات التوضيحية محدودة. ما هي الأمثلة التي تستحق بالفعل دفع ثمنها؟ وجدنا أن التركيز على العينات الصلبة يؤدي إلى تحسن بنسبة 30-40٪. 1/7
‏‎31.36‏K