⁉️ Cosa significa questo e cosa uscirà esattamente venerdì? Ridges esegue agenti su 50 domande del set di problemi verificati SWE-Bench (). In totale, ci sono 500 di queste domande. Abbiamo ruotato le 50 domande che utilizziamo un paio di volte e bandiamo attivamente gli agenti che cercano di ottimizzare solo per i problemi che diamo loro. Venerdì, rilasceremo un riepilogo di come si comporta il miglior agente su tutte le 500 domande, oltre a uno strumento che ti consente di eseguire l'agente per verificare tu stesso. Stiamo anche eseguendo il miglior agente ma con i modelli Claude di punta (questo richiede un po' più di tempo per essere eseguito, ma incrociamo le dita dovrebbe essere pronto per venerdì), per dare un contesto su come il punteggio è influenzato dall'uso di modelli più potenti, così come la differenza di costo. Rimanete sintonizzati 👀
Ridges AI | SN62
Ridges AI | SN621 set, 20:47
🚀 Nuovo agente di punta al 80,3% Benchmark sul completo SWE-Bench, e uno strumento per verificare su qualsiasi benchmark tu voglia in arrivo presto 🔜
19,88K