Ми представляємо кращий рецепт збору даних після тренування при використанні GRPO. Збір зразків у експертів коштує дорого, бюджети анотацій обмежені. За які приклади насправді варто платити? Ми виявили, що зосередження уваги на твердих зразках призводить до покращення на 30-40%. 1/7
31,36K