BF16 -> FP16 är en så enkel (en konfigurationsändring i Oat) men ändå grundläggande korrigering för matchning av inferensträning. Med FP16 överträffar den mest grundläggande betydelsesamplingen PG alla algoritmiska korrigeringar i BF16. Låt oss tänka om när det gäller RL-stabilitet ur ett precisionsperspektiv. 🔎