跳转至主要内容
行情
扫链
追踪
信号
牛人榜
兑换
资产
邀请计划
更多
产品
DeFi
市场
洞察中心
Eco Hub
安全中心
开发者中心
X Layer
探索 X Layer
X Layer 浏览器
跨链桥
开发者文档
测试网水龙头
GitHub
Wallet API
探索 Wallet API
API 文档
API Key 管理
区块链浏览器
DApp 连接钱包
Boost
X Launch
参与 X Launch,抢先赚新币
Giveaway
完成指定任务,领取空投好礼
交易赛
交易热门代币,冲榜赢大奖
奖励中心
领取奖励和空投
预警
语言
货币
下载 OKX Wallet
Web3 指南
公告
返回
简体中文
繁體中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
返回
返回
学院
帮助中心
发现功能使用指南
热门话题
#
Bonk 生态迷因币展现强韧势头
Hosico
-14.11%
USELESS
+9.23%
IKUN
-8.74%
gib
-11.61%
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
Bonk
-3.28%
ALON
-2.73%
LAUNCHCOIN
-9.32%
GOONC
-4.38%
KLED
-11%
#
Solana 新代币发射平台 Boop.Fun 风头正劲
BOOP
+0.04%
Boopa
-4.55%
PORK
-0.25%
主页
Jackson Atkins
工程总监和人工智能从业者。在几天内构建了低代码承保引擎,节省了数百万美元。现在对团队进行下一代人工智能培训。
查看原文
Jackson Atkins
2025年10月26日
事实证明,AI已经可以完成65%的专业任务…… Nvidia让38位博士和MBA花费超过10小时创建基准测试。 他们在实际工作中测试了40多个模型。不是学术练习,而是初级分析师和研究人员每天都在做的真实工作。 GPT-5的整体得分为65.9%。 它们以64.4%的准确率提取事实。需要识别RTX作为最大的国防部承包商?发现IFFIm通过疫苗债券筹集了35亿美元?模型主要从文档中提取特定信息,即使这些信息埋藏在数十页中。 逻辑推理的得分为66.2%。它们可以跟随多步骤推导,正确应用公式,验证因果链。当你需要遵循既定框架进行系统分析时,模型能在三次中交付两次。 意外的赢家:咨询框架的准确率为80%。模型成功地构建市场进入分析、竞争评估和战略建议。它们理解波特的五力分析不仅仅是列出竞争对手,而是分析议价能力动态。 化学问题?成功率为70.6%。模型处理反应机制、合成路径和化学平衡计算,这对大多数非专业人士来说都是挑战。它们在计算摩尔浓度、预测产物、平衡方程方面的水平足以通过研究生课程。 即使在金融领域,模型的表现较弱,得分为63.7%,但它们成功完成大多数估值模型,解释证券化结构,并撰写连贯的投资备忘录。这几乎是三分之二的MBA级别的财务分析正确处理。 ProfBench通过在四个专业领域测试7347个专家编写的标准揭示了这一点。 与仅限于单一领域的狭窄基准不同,它捕捉了知识工作的广度。每次评估12美元(而PaperBench为8000美元),任何研究人员都可以衡量真实能力。 当然,模型在专业格式(65.3%)、物理推导(49.3%)方面存在困难,且尚无法浏览1000页的内容。但我们已经跨越了一个门槛,AI能够正确处理大多数专业任务。 不是完美的。不是完全的。但65%足以从根本上改变知识工作的进行方式。
38.69K
470
Jackson Atkins
2025年10月6日
每个人都认为苹果在人工智能方面落后。 与此同时,苹果正在构建一个拥有数千万个关联事实的庞大知识图谱。 你无法通过谷歌搜索获得这样的数据。 苹果正在酝酿。你只是看不见而已。
80.7K
1.11K
热门
排行
收藏