.@willccbb (vedoucí výzkumu, Prime Intellect) o tom, jak prostředí RL skutečně fungují: "Prostředí je v podstatě vyhodnocení. Máte vstupní úkoly, svazek a na konci se hodnotí, jak si váš model nebo agent vede. To je nastavení, které používáme jak pro eval, tak pro RL trénink." Dodává, že budoucnost není jen o tom, "dostat 100 000 GPU do jednoho obrovského clusteru".
15,11K