Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚨Čínský DeepSeek právě zrušil jediný open-source model dostatečně dobrý v matematice, aby podle mě vyhrál zlato, a to je report, který si musíte přečíst!
Klíčová myšlenka vychází z věcí, o kterých Karpathy a další mluvili: překročit hranici "konečné odpovědi RL" do smyčky generátor–ověřovatel–meta-ověřovač v čistém jazyce.
– Ověřovatel je trénován RL pro skórování důkazů.
– Meta-ověřovatel kontroluje kritiku ověřovatele.
– Generátor je trénován RL na signálech odměny ověřovatele, aby psal a samokontroloval lepší důkazy.
Protože vše žije v přirozeném jazyce (bez Lean), tento recept by se měl vztahovat na mnoho ověřitelných oblastí: vědu, kód, kamkoli, kde je kontrola jednodušší než řešení!

Top
Hodnocení
Oblíbené

