跳转至主要内容
行情
扫链
追踪
信号
牛人榜
兑换
资产
邀请计划
更多
产品
DeFi
市场
洞察中心
Eco Hub
安全中心
开发者中心
X Layer
探索 X Layer
X Layer 浏览器
跨链桥
开发者文档
测试网水龙头
GitHub
Wallet API
探索 Wallet API
API 文档
API Key 管理
区块链浏览器
DApp 连接钱包
Boost
X Launch
参与 X Launch,抢先赚新币
Giveaway
完成指定任务,领取空投好礼
交易赛
交易热门代币,冲榜赢大奖
奖励中心
领取奖励和空投
预警
语言
货币
下载 OKX Wallet
Web3 指南
公告
返回
简体中文
繁體中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
返回
返回
学院
帮助中心
发现功能使用指南
热门话题
#
Bonk 生态迷因币展现强韧势头
Hosico
+1.59%
USELESS
-6.72%
IKUN
-3.25%
gib
-2.32%
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
Bonk
+1.51%
ALON
+0.47%
LAUNCHCOIN
-6.73%
GOONC
+2.62%
KLED
+6.82%
#
Solana 新代币发射平台 Boop.Fun 风头正劲
BOOP
-0.04%
Boopa
+0.31%
PORK
+3.65%
主页
Ethan Mollick
Ethan Mollick
13 小时前
AI 已经在整个艺术语料库上进行了训练,因此了解一些设计历史对你自己是有帮助的。 这里是“一个宣传自由意志概念的海报”,采用 Sachplakat 风格、1970 年代波兰电影海报风格、构成主义和国际排版风格。
19.18K
353
Ethan Mollick
11月26日 14:39
"来自一个家居装饰杂志的页面,在这个世界里,给任何东西加上巨大的动眼睛被认为是时尚的巅峰"
14.15K
181
Ethan Mollick
11月26日 11:01
我还没有阅读完整的论文,论文尚未发布,所以无法谈论细节,但我很高兴看到对 LLM 作为评判者应用了更多的方法论严谨性。LLM 评分是大量基准的核心,通常在没有明确统计验证的情况下使用。
Kangwook Lee
11月26日 05:56
作为评判者的LLM已成为评估模型解决任务能力的主要方式,因为它不依赖于测试集,并且能够处理答案不唯一的情况。 但尽管这种方法被广泛使用,几乎所有报告的结果都存在高度偏见。 很高兴分享我们关于如何正确使用LLM作为评判者的预印本。 🧵 === 那么人们实际上是如何使用LLM作为评判者的呢? 大多数人只是将LLM用作评估者,并报告LLM认为答案看起来正确的经验概率。 当LLM完美时,这种方法很好,并且提供了一个无偏估计。 如果LLM不完美,这种方法就会失效。 考虑一个案例,其中LLM正确评估的概率为80%。 更具体地说,如果答案是正确的,LLM以80%的概率说“这看起来正确”,而当答案实际上是错误的时,LLM同样以80%的概率说“这看起来正确”。 在这种情况下,你不应该报告经验概率,因为它是有偏的。为什么? 设被测试模型正确的真实概率为p。 那么LLM说“正确”的经验概率(= q)为: q = 0.8p + 0.2(1 - p) = 0.2 + 0.6p 因此,无偏估计应该是: (q - 0.2) / 0.6 如果错误模式不对称,或者你事先不知道这些错误率,情况会变得更加有趣。 === 那么这意味着什么? 首先,遵循我们预印本中建议的指导方针。 没有免费的午餐。除非你的LLM作为评判者被证明在评判上是完美的,否则你无法评估你的模型有多好。 根据它与完美评估者的接近程度,你需要足够大小的测试集(= 校准集)来估计评估者的错误率,然后你必须对此进行修正。 其次,非常不幸的是,我们在过去几年中看到的许多研究结果需要重新审视。 除非两篇论文使用了完全相同的LLM作为评判者,否则在它们之间比较结果可能会产生虚假的声明。改进可能仅仅来自于稍微改变评估流程。迫切需要进行严格的元研究。 === tldr: (1) 在过去几年中,几乎所有LLM作为评判者的评估都是以有偏估计报告的。 (2) 这很容易修正,所以请等待我们的完整预印本。 (3) 许多LLM作为评判者的结果应谨慎对待。 完整的预印本将在几天内发布,请保持关注! 我的学生和合作者们做了惊人的工作。 @chungpa_lee @tomzeng200 @jongwonjeong123 和 @jysohn1108
27.11K
163
热门
排行
收藏