我们在模型能力方面有太多的基准,而在自主工作方面却太少。越来越多的经济学上重要的不是人工智能通过API调用正确回答问题的能力,而是它结合工具和解决问题的能力。这一点被低估了。
一个能力较弱的模型,但能够识别出何时出错,并善于使用其他方法来克服其弱点,比一个在“人类最后考试”中得分高几分的模型更具实用价值。但我们的基准测试并没有看到这一点。
我们还需要更好的基准测试,以指出代理能力为何会崩溃。例如,视觉是模型的一个明显弱点,这解释了许多代理在与现实世界互动时的失败。但“厄运循环”也是如此,AI不断尝试同样的事情。
运行一个虚构的自动售货机作为宣布重大新AI模型的主要基准,显示了我们所处的位置。这并不是一个糟糕的测试(实际上非常有趣),但它测量的内容并不明确,我们需要更多样化的任务。
29.55K