We introduceren een beter recept voor het verzamelen van post-training gegevens bij het gebruik van GRPO. Het verzamelen van monsters van experts is duur, annotatiebudgetten zijn beperkt. Welke voorbeelden zijn het eigenlijk waard om voor te betalen? We ontdekken dat de focus op moeilijke monsters resulteert in een verbetering van 30-40%. 1/7
31,37K