🚨DeepSeek z Chin właśnie wypuścił jedyny model open-source, który jest wystarczająco dobry w matematyce, aby zdobyć złoto IMO, oraz raport, który trzeba przeczytać! Kluczowa idea czerpie z rzeczy, o których mówili Karpathy i inni: przejście poza „ostateczną odpowiedź RL” w kierunku pętli generator–weryfikator–meta-weryfikator w czystym języku. – Weryfikator jest trenowany w RL, aby oceniać dowody. – Meta-weryfikator sprawdza krytyki weryfikatora. – Generator jest trenowany w RL na sygnałach nagród weryfikatora, aby pisać i samodzielnie sprawdzać lepsze dowody. Ponieważ wszystko istnieje w naturalnym języku (bez Leana), ten przepis powinien rozciągać się na wiele weryfikowalnych dziedzin: nauka, kod, wszędzie tam, gdzie sprawdzanie jest łatwiejsze niż rozwiązywanie!