Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚨DeepSeek z Chin właśnie wypuścił jedyny model open-source, który jest wystarczająco dobry w matematyce, aby zdobyć złoto IMO, oraz raport, który trzeba przeczytać!
Kluczowa idea czerpie z rzeczy, o których mówili Karpathy i inni: przejście poza „ostateczną odpowiedź RL” w kierunku pętli generator–weryfikator–meta-weryfikator w czystym języku.
– Weryfikator jest trenowany w RL, aby oceniać dowody.
– Meta-weryfikator sprawdza krytyki weryfikatora.
– Generator jest trenowany w RL na sygnałach nagród weryfikatora, aby pisać i samodzielnie sprawdzać lepsze dowody.
Ponieważ wszystko istnieje w naturalnym języku (bez Leana), ten przepis powinien rozciągać się na wiele weryfikowalnych dziedzin: nauka, kod, wszędzie tam, gdzie sprawdzanie jest łatwiejsze niż rozwiązywanie!

Najlepsze
Ranking
Ulubione

