Мы представляем лучший рецепт для сбора данных после обучения при использовании GRPO. Сбор образцов от экспертов дорог, бюджеты на аннотацию ограничены. Какие примеры действительно стоят того, чтобы за них платить? Мы обнаружили, что сосредоточение на сложных образцах приводит к улучшению на 30-40%. 1/7
31,37K