跳轉至主要內容
行情
掃鏈
追蹤
信號
牛人榜
兌換
資產
邀請計劃
更多
產品
DeFi
市場
洞察中心
Eco Hub
安全中心
開發者中心
X Layer
探索 X Layer
X Layer 瀏覽器
跨鏈橋
開發者文檔
測試網水龍頭
GitHub
Wallet API
探索 Wallet API
API 文檔
API Key 管理
區塊鏈瀏覽器
DApp 連接錢包
Boost
X Launch
參與 X Launch,搶先賺新幣
Giveaway
完成指定任務,領取空投好禮
交易賽
交易熱門代幣,衝榜贏大獎
獎勵中心
領取獎勵和空投
預警
語言
貨幣
下載 OKX Wallet
Web3 指南
公告
返回
繁體中文
简体中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
返回
返回
學院
幫助中心
發現功能使用指南
熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
Hosico
+23.26%
USELESS
+13.94%
IKUN
+8.27%
gib
-1.45%
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
Bonk
+9.34%
ALON
+7.64%
LAUNCHCOIN
+0.79%
GOONC
+5.68%
KLED
-6.64%
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
BOOP
+3.03%
Boopa
+13.77%
PORK
+7.1%
主頁
Jackson Atkins
工程總監和人工智能從業者。在幾天內構建低代碼承保引擎——節省了數百萬美元。現在對團隊進行下一代人工智慧培訓。
查看原文
Jackson Atkins
2025年10月26日
結果顯示,AI已經能夠完成65%的專業任務... Nvidia讓38位博士和MBA花費超過10小時創建基準測試。 他們在實際工作中測試了40多個模型,而不是學術練習。這是真正的工作,初級分析師和研究人員每天都在做。 GPT-5的總分為65.9%。 他們以64.4%的準確率提取事實。需要識別RTX作為最大的國防部承包商?發現IFFIm通過疫苗債券籌集了35億美元?模型主要從文件中提取具體信息,即使這些信息埋藏在數十頁中。 邏輯推理的準確率為66.2%。他們能夠跟隨多步推導,正確應用公式,驗證因果鏈。當你需要遵循既定框架進行系統分析時,模型能夠三次中有兩次提供正確的結果。 驚喜的贏家:諮詢框架的準確率為80%。模型成功地結構化市場進入分析、競爭評估和戰略建議。他們理解波特的五力分析不僅僅是列出競爭對手,而是分析議價能力的動態。 化學問題?成功率為70.6%。模型處理反應機制、合成路徑和達到平衡的計算,這對大多數非專家來說都是挑戰。他們在計算摩爾濃度、預測產物、平衡方程式方面的表現達到了研究生課程的水平。 即使在金融領域,模型的表現較弱,準確率為63.7%,但他們仍能成功完成大多數估值模型,解釋證券化結構,並撰寫連貫的投資備忘錄。這幾乎是三分之二的MBA級金融分析正確處理。 ProfBench通過在四個專業領域進行測試,使用7347個專家編寫的標準來揭示這一點。 與僅限於單一領域的狹隘基準不同,它捕捉了知識工作的廣度。而且每次評估只需12美元(相比PaperBench的8000美元),任何研究人員都可以測量實際能力。 當然,模型在專業格式(65.3%)、物理推導(49.3%)方面仍然存在困難,並且尚未能夠瀏覽1000頁的內容。但我們已經跨越了一個門檻,AI能夠正確處理大多數專業任務。 不是完美的。不是完全的。但65%足以根本改變知識工作的進行方式。
38.7K
470
Jackson Atkins
2025年10月6日
每個人都認為蘋果在 AI 上睡著了。 與此同時,蘋果正在建立一個擁有數千萬個鏈接事實的龐大知識圖譜。 你無法從 Google 搜索中獲得這樣的數據。 蘋果正在努力。你只是看不見而已。
80.72K
1.11K
熱門
排行
收藏