🚀很高興分享我們的新工作! 💊問題:BF16 精度導致訓練與推理之間存在較大不匹配,導致不穩定的強化學習訓練。 💡解決方案:只需切換到 FP16。 🎯就這樣。 📰論文: ⭐️代碼: