.@willccbb (Onderzoeksleider, Prime Intellect) over hoe RL-omgevingen echt werken: "Een omgeving is in wezen een evaluatie. Je hebt invoertaken, een harnas, en aan het einde beoordeelt het hoe jouw model of agent presteert. Dat is de opzet die we gebruiken voor zowel evaluaties als RL-training." Hij voegt eraan toe dat de toekomst niet alleen gaat om "het krijgen van 100.000 GPU's in één gigantische cluster."
17,71K