BF16 -> FP16 est un correctif si simple (un changement de configuration dans Oat) mais fondamental pour le décalage entre l'inférence et l'entraînement. Avec FP16, le PG d'importance sampling le plus basique surpasse tous les correctifs algorithmiques en BF16. Repensons la stabilité de l'apprentissage par renforcement du point de vue de la précision.🔎