热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
我们在模型能力方面有太多的基准,而在自主工作方面却太少。越来越多的经济学上重要的不是人工智能通过API调用正确回答问题的能力,而是它结合工具和解决问题的能力。这一点被低估了。
一个能力较弱的模型,但能够识别出何时出错,并善于使用其他方法来克服其弱点,比一个在“人类最后考试”中得分高几分的模型更具实用价值。但我们的基准测试并没有看到这一点。
我们还需要更好的基准测试,以指出代理能力为何会崩溃。例如,视觉是模型的一个明显弱点,这解释了许多代理在与现实世界互动时的失败。但“厄运循环”也是如此,AI不断尝试同样的事情。
运行一个虚构的自动售货机作为宣布重大新AI模型的主要基准,显示了我们所处的位置。这并不是一个糟糕的测试(实际上非常有趣),但它测量的内容并不明确,我们需要更多样化的任务。
29.55K
热门
排行
收藏

