另一组缺失的 AI 基准测试是关于脆弱性的。有些模型乍一看似乎表现良好,并在基准测试中表现出色,但在使用时却崩溃。模型是否能够很好地泛化?它们是否总是回到相同的主题或想法?它们是否理解提示的意图?