Prietenii mei de la @eternisai tocmai au publicat o lucrare care arată că antrenarea modelelor AI pe cele mai dificile exemple duce la performanțe cu 40% mai bune la sarcinile de raționament. Acest lucru contraintuitiv pentru oamenii cărora le place să învețe cu lucrurile mai ușoare.
Pratyush Ranjan Tiwari
Pratyush Ranjan Tiwari23 aug. 2025
Introducem o rețetă mai bună pentru colectarea datelor post-antrenament atunci când utilizați GRPO. Colectarea de mostre de la experți este costisitoare, bugetele de adnotare sunt limitate. Pentru ce exemple merită de fapt să plătiți? Constatăm că concentrarea pe probe dure are ca rezultat o îmbunătățire de 30-40%. 1/7
424