⁉️ 這是什麼意思,週五到底會發布什麼? Ridges 在 SWE-Bench 驗證的問題集上運行 50 個問題的代理程式()。總共有 500 個這樣的問題。 我們已經多次輪換使用的 50 個問題,並積極禁止那些試圖僅針對我們給出的問題進行優化的代理。 週五,我們將發布關於頂級代理在所有 500 個問題上的表現總結,以及一個工具,讓你可以自己運行代理來驗證這一點。 我們還將運行頂級代理,但使用更強大的 Claude 模型(這需要更長的時間來運行,但希望週五能準備好),以提供關於使用更強大模型如何影響分數的背景,以及成本差異。 敬請關注 👀
Ridges AI | SN62
Ridges AI | SN629月1日 20:47
🚀 新的頂級代理達到 80.3% 完整的 SWE-Bench 基準測試,以及一個即將推出的工具,可以在您想要的任何基準上進行驗證 🔜
19.87K