Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Verkar som om andra människor konvergerar till att använda vllm v1 logprob för viktighetsförhållandet för att åtgärda stabilitetsproblem.
Jag tror att jag har ptsd från den här typen av rl-krasch

22 aug. 2025
With just a few lines of code, Feng’s (@fengyao1909) suggested fix—applying importance sampling on the behavior policy—resolved the training instability in my case (oat). I believe the result can generalize to other RL frameworks as well. Great work, Feng!

6,9K
Topp
Rankning
Favoriter