跳转至主要内容
行情
扫链
追踪
信号
牛人榜
兑换
资产
邀请计划
更多
产品
DeFi
市场
洞察中心
Eco Hub
安全中心
开发者中心
X Layer
探索 X Layer
X Layer 浏览器
跨链桥
开发者文档
测试网水龙头
GitHub
Wallet API
探索 Wallet API
API 文档
API Key 管理
区块链浏览器
DApp 连接钱包
Boost
X Launch
参与 X Launch,抢先赚新币
Giveaway
完成指定任务,领取空投好礼
交易赛
交易热门代币,冲榜赢大奖
奖励中心
领取奖励和空投
预警
语言
货币
下载 OKX Wallet
Web3 指南
公告
返回
简体中文
繁體中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
返回
返回
学院
帮助中心
发现功能使用指南
热门话题
#
Bonk 生态迷因币展现强韧势头
Hosico
+14.32%
USELESS
+16.47%
IKUN
+2.88%
gib
-3.34%
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
Bonk
+8.63%
ALON
+6.09%
LAUNCHCOIN
+0.95%
GOONC
+5.68%
KLED
-0.88%
#
Solana 新代币发射平台 Boop.Fun 风头正劲
BOOP
-0.06%
Boopa
+8.34%
PORK
+7.1%
主页
Anastasios Nikolas Angelopoulos
构建 LMArena。 黑盒统计、模型评估。 @Berkeley_EECS博士,前学生研究员@GoogleDeepMind和@stanford_ee校友。
查看原文
Anastasios Nikolas Angelopoulos
11月13日 02:31
这个版本真是太牛了。这是今年 LMArena 最大的更新之一! Code Arena 是我们下一代的编码评估,首先从网页开发任务开始。 在这里,你可以使用模型构建互动网站,并与朋友分享。链接是持久的,因此你可以例如构建一个游戏,并随时玩。 在这里观看两个模型 -- @claudeai Haiku 和 @grok-Code-Fast -- 竞争构建一个银河。在这种情况下,我喜欢 Grok 的 "星际大战" 效果!
lmarena.ai
11月13日 01:48
🚀介绍代码竞技场:下一代前沿AI模型的实时编码评估。旨在测试模型如何逐步规划、搭建、调试和构建真实的Web应用程序。 今天就在代码竞技场尝试Claude、GPT-5、GLM-4.6和Gemini吧!
37.05K
156
Anastasios Nikolas Angelopoulos
11月6日 03:30
🏆新的LMARENA排行榜🏆 🤓专家 💻 软件与IT服务 ✍️ 写作、文学与语言 🔬 生命、物理与社会科学 🎭 娱乐、体育与媒体 📈 商业、管理与金融运营 🧮 数学 ⚖️ 法律与政府 🩺 医学与医疗保健 对AI经济效用的评估(如GDPval)变得越来越相关,但收集成本高昂。我们与LMArena每月数百万贡献者的社区合作,天然地获取职业和专家数据,解决了可扩展性问题。 >5%的LMArena用户是专家,LMArena提示中有大量来自经济价值行业的内容:软件工程师、学生/研究人员、市场营销人员/设计师、医生、律师等。这使我们能够在这些类别中建立基于每天新反馈的在线排行榜。这体现了我们在@arena创建的现实反馈系统的力量!
lmarena.ai
11月6日 03:26
🚀 介绍 Arena Expert:一个新的 LMArena 评估框架,用于识别来自真实用户的最具挑战性、专家级的提示,推动新的专家排行榜。 我们还引入了八个新排行榜所依据的职业类别: 💻 软件与 IT 服务 ✍️ 写作、文学与语言 🔬 生命、物理与社会科学 🎭 娱乐、体育与媒体 📈 商业、管理与金融运营 🧮 数学 ⚖️ 法律与政府 🩺 医学与医疗保健 探索模型在各个领域的表现,查看线程 🧵 👇
12.56K
63
Anastasios Nikolas Angelopoulos
2025年10月29日
LMArena 办公室今天热闹非凡。环境非常线性。我们在建设性地相互干扰,总是推动彼此学习,超越我们认为的极限。 我们在招聘时寻找的首要特质是“卓越”。每天生产的工作都要达到最高的技术标准,体现工艺、性能和可靠性。还有其他因素,但绝不能在卓越上妥协。因此,我们团队中的每个人都是深厚的专家。这是建立高质量评估所必需的信心。 卓越孕育卓越。没有人想在一群消极的人中工作——这会扼杀动力。我们不断提高标准,这就是带来能量感的原因。这是罕见的。 如果你有兴趣在这样的环境中工作,给我发个私信。我们总是在寻找能够将标准提高一个档次的人。
6.58K
41
热门
排行
收藏