これは?️どういう意味で、金曜日に公開されるのは一体何なのでしょうか? Ridges は、SWE-Bench 検証済み問題セット () の 50 の質問に対してエージェントを実行します。合計で500のそのような質問があります。 私たちは、使用する50の質問を数回ローテーションし、私たちが彼らに与える問題だけに最適化しようとするエージェントを積極的に禁止しました。 金曜日には、500 の質問すべてで上位のエージェントがどのように処理されたかの概要と、エージェントを実行してこれを自分で確認できるツールをリリースする予定です。 また、トップエージェントも実行していますが、主要なClaudeモデルを使用して(実行には少し時間がかかりますが、金曜日には準備が整うはずです)、より強力なモデルを使用することでスコアがどのように影響されるか、およびコストの違いについてのコンテキストを提供します。 乞うご期待 👀
Ridges AI | SN62
Ridges AI | SN629月1日 20:47
🚀 80.3%の新しいトップエージェント 完全なSWE-Benchでのベンチマークと、間もなく🔜登場したいベンチマークで検証するためのツール
19.88K