Představujeme lepší recept na sběr post-tréninkových dat při použití GRPO. Sběr vzorků od odborníků je drahý, rozpočty na anotace jsou omezené. Za které příklady se vlastně vyplatí zaplatit? Zjistili jsme, že zaměření na tvrdé vzorky vede ke zlepšení o 30-40 %. 1/7
31,36K