Verkar som om andra människor konvergerar till att använda vllm v1 logprob för viktighetsförhållandet för att åtgärda stabilitetsproblem. Jag tror att jag har ptsd från den här typen av rl-krasch
Zichen Liu
Zichen Liu22 aug. 2025
With just a few lines of code, Feng’s (@fengyao1909) suggested fix—applying importance sampling on the behavior policy—resolved the training instability in my case (oat). I believe the result can generalize to other RL frameworks as well. Great work, Feng!
6,9K