OK, tarvitsen apua! Yritin hienosäätää GPT-OSS:ää viikonloppuna. se toimii ~100 askelta ja heittää sitten CUDA-muistin loppumisvirheen Veikkaan, että aina silloin tällöin kaikki tokenit ohjataan yhdelle asiantuntijalle. sitten koulutus kaatuu. Onko olemassa helppoa ratkaisua? ei ole koskaan aiemmin hienosäätänyt MoE:tä
😒
95,48K