Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚨Çin'in DeepSeek'i, matematikte yeterince iyi olan tek açık kaynak modelini yayınladı ve bu mutlaka okunması gereken bir rapor!
Ana fikir, Karpathy ve diğerlerinin konuştuğu şeylerden besleniyor: "nihai cevap RL"nin ötesine geçip, saf dilde bir üretici-doğrulayıcı-meta-doğrulayıcı döngüsüne geçmek.
– Doğrulayıcı, ispatları puanlamak için RL eğitimine sahiptir.
– Bir meta-doğrulayıcı, doğrulayıcının eleştirilerini kontrol eder.
– Bir jeneratör, daha iyi ispatlar yazmak ve kendi kendine kontrol etmek için doğrulayıcı ödül sinyalleri üzerinde RL eğitimi almıştır.
Her şey doğal dilde yaşadığı için (Lean yok), bu tarif birçok doğrulanabilir alana YAYILMALI: bilim, kod, kontrol etmek çözmekten daha kolay olan her yer!

En İyiler
Sıralama
Takip Listesi

