BF16 -> FP16 è una modifica così semplice (una sola modifica di configurazione in Oat) eppure fondamentale per il mismatch tra inferenza e addestramento. Con FP16, il più basilare campionamento di importanza PG supera tutte le soluzioni algoritmiche in BF16. Riconsideriamo la stabilità del RL dalla prospettiva della precisione.🔎