Vi introduserer en bedre oppskrift for innsamling av data etter trening ved bruk av GRPO. Å samle inn prøver fra eksperter er dyrt, merknadsbudsjettene er begrenset. Hvilke eksempler er egentlig verdt å betale for? Vi finner at fokus på harde prøver resulterer i en forbedring på 30-40 %. 1/7
31,37K