Teman-teman saya di @eternisai baru saja menerbitkan makalah yang menunjukkan bahwa melatih model AI pada contoh tersulit menghasilkan kinerja 40% lebih baik pada tugas penalaran. Ini berlawanan dengan intuisi bagi manusia yang suka belajar dengan hal-hal yang lebih mudah.
Pratyush Ranjan Tiwari
Pratyush Ranjan Tiwari23 Agu, 01.41
Kami memperkenalkan resep yang lebih baik untuk mengumpulkan data pasca-pelatihan saat menggunakan GRPO. Mengumpulkan sampel dari para ahli mahal, anggaran anotasi terbatas. Contoh mana yang benar-benar layak dibayar? Kami menemukan bahwa berfokus pada sampel keras menghasilkan peningkatan 30-40%. 1/7
259