Kami memperkenalkan resep yang lebih baik untuk mengumpulkan data pasca-pelatihan saat menggunakan GRPO. Mengumpulkan sampel dari para ahli mahal, anggaran anotasi terbatas. Contoh mana yang benar-benar layak dibayar? Kami menemukan bahwa berfokus pada sampel keras menghasilkan peningkatan 30-40%. 1/7
31,36K