Wprowadzamy lepszy przepis na zbieranie danych po treningu przy użyciu GRPO. Zbieranie próbek od ekspertów jest kosztowne, budżety na adnotacje są ograniczone. Które przykłady są naprawdę warte zapłacenia? Odkrywamy, że skupienie się na trudnych próbkach skutkuje poprawą o 30-40%. 1/7
31,36K