🚀Siamo entusiasti di condividere il nostro nuovo lavoro! 💊Problema: La precisione BF16 causa un grande mismatch tra addestramento e inferenza, portando a un addestramento RL instabile. 💡Soluzione: Basta passare a FP16. 🎯Ecco tutto. 📰Carta: ⭐️Codice: