一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动 | OKX Wallet

热门话题

我们在模型能力方面有太多的基准，而在自主工作方面却太少。越来越多的经济学上重要的不是人工智能通过API调用正确回答问题的能力，而是它结合工具和解决问题的能力。这一点被低估了。

一个能力较弱的模型，但能够识别出何时出错，并善于使用其他方法来克服其弱点，比一个在“人类最后考试”中得分高几分的模型更具实用价值。但我们的基准测试并没有看到这一点。

我们还需要更好的基准测试，以指出代理能力为何会崩溃。例如，视觉是模型的一个明显弱点，这解释了许多代理在与现实世界互动时的失败。但“厄运循环”也是如此，AI不断尝试同样的事情。

运行一个虚构的自动售货机作为宣布重大新AI模型的主要基准，显示了我们所处的位置。这并不是一个糟糕的测试（实际上非常有趣），但它测量的内容并不明确，我们需要更多样化的任务。

29.55K

热门

排行

收藏