跳轉至主要內容
行情
掃鏈
追蹤
信號
牛人榜
兌換
資產
邀請計劃
更多
產品
DeFi
市場
洞察中心
Eco Hub
安全中心
開發者中心
X Layer
探索 X Layer
X Layer 瀏覽器
跨鏈橋
開發者文檔
測試網水龍頭
GitHub
Wallet API
探索 Wallet API
API 文檔
API Key 管理
區塊鏈瀏覽器
DApp 連接錢包
Boost
X Launch
參與 X Launch,搶先賺新幣
Giveaway
完成指定任務,領取空投好禮
交易賽
交易熱門代幣,衝榜贏大獎
獎勵中心
領取獎勵和空投
預警
語言
貨幣
下載 OKX Wallet
Web3 指南
公告
返回
繁體中文
简体中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
返回
返回
學院
幫助中心
發現功能使用指南
熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
Hosico
+3.89%
USELESS
+1.44%
IKUN
+5.9%
gib
+15.62%
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
Bonk
+2.11%
ALON
+24.94%
LAUNCHCOIN
-2.3%
GOONC
-2.8%
KLED
+24.66%
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
BOOP
-3.52%
Boopa
-9.21%
PORK
+5.11%
主頁
Zichen Liu
博士生,RL 信徒@SeaAIL @NUSingapore。
查看原文
Zichen Liu
11月1日 11:11
非常興奮 @karpathy 注意到我們的工作!希望這能幫助更廣泛的社區意識到 *精確性* 在我們的設計空間中應該佔有一席之地。
275.59K
1.7K
Zichen Liu
2025年10月31日
BF16 -> FP16 是一個如此簡單(在 Oat 中只需更改一個配置)但對於推理與訓練不匹配來說卻是根本性的修正。 使用 FP16,最基本的重要性取樣 PG 超越了 BF16 中所有的算法修正。讓我們從精度的角度重新思考 RL 穩定性。🔎
Penghui Qi
2025年10月31日
🚀很高興分享我們的新工作! 💊問題:BF16 精度導致訓練與推理之間存在較大不匹配,導致不穩定的強化學習訓練。 💡解決方案:只需切換到 FP16。 🎯就這樣。 📰論文: ⭐️代碼:
68.38K
509
Zichen Liu
2025年10月25日
在2025年結束之前,撰寫關於LLM的強化學習(RL)論文提案沒有什麼比這更令人興奮的了!! 涵蓋我在過去1.5年中作為第一作者完成的一部分作品(在從傳統的RL轉向LLM RL之後…) 當然,這只是暫定標題。
58.49K
514
熱門
排行
收藏