Wir stellen ein besseres Rezept zur Sammlung von Post-Training-Daten bei der Verwendung von GRPO vor. Die Sammlung von Proben von Experten ist teuer, die Budgets für Annotationen sind begrenzt. Welche Beispiele sind es tatsächlich wert, dafür zu bezahlen? Wir stellen fest, dass die Fokussierung auf schwierige Proben zu einer Verbesserung von 30-40 % führt. 1/7
31,38K