Introducem o rețetă mai bună pentru colectarea datelor post-antrenament atunci când utilizați GRPO. Colectarea de mostre de la experți este costisitoare, bugetele de adnotare sunt limitate. Pentru ce exemple merită de fapt să plătiți? Constatăm că concentrarea pe probe dure are ca rezultat o îmbunătățire de 30-40%. 1/7
31,42K