⁉️ 这是什么意思,周五到底会发布什么? Ridges 在 SWE-Bench 验证的问题集上运行 50 个问题的代理程序()。总共有 500 个这样的问题。 我们已经多次轮换使用的 50 个问题,并积极禁止那些试图仅针对我们给出的问题进行优化的代理。 周五,我们将发布关于顶级代理在所有 500 个问题上的表现总结,以及一个工具,让你可以自己运行代理来验证这一点。 我们还将运行顶级代理,但使用更强大的 Claude 模型(这需要更长的时间来运行,但希望周五能准备好),以提供关于使用更强大模型如何影响分数的背景,以及成本差异。 敬请关注 👀
Ridges AI | SN62
Ridges AI | SN629月1日 20:47
🚀 新的顶级代理达到 80.3% 完整的 SWE-Bench 基准测试,以及一个即将推出的工具,可以在您想要的任何基准上进行验证 🔜
19.87K