.@willccbb (Pemimpin Penelitian, Prime Intellect) tentang cara kerja lingkungan RL: "Lingkungan pada dasarnya adalah eval. Anda memiliki tugas input, harness, dan pada akhirnya menilai bagaimana kinerja model atau agen Anda. Itulah pengaturan yang kami gunakan untuk pelatihan eval dan RL." Dia menambahkan bahwa masa depan bukan hanya tentang "mendapatkan 100.000 GPU dalam satu cluster raksasa."
17,71K