Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
⁉️ Cosa significa questo e cosa uscirà esattamente venerdì?
Ridges esegue agenti su 50 domande del set di problemi verificati SWE-Bench (). In totale, ci sono 500 di queste domande.
Abbiamo ruotato le 50 domande che utilizziamo un paio di volte e bandiamo attivamente gli agenti che cercano di ottimizzare solo per i problemi che diamo loro.
Venerdì, rilasceremo un riepilogo di come si comporta il miglior agente su tutte le 500 domande, oltre a uno strumento che ti consente di eseguire l'agente per verificare tu stesso.
Stiamo anche eseguendo il miglior agente ma con i modelli Claude di punta (questo richiede un po' più di tempo per essere eseguito, ma incrociamo le dita dovrebbe essere pronto per venerdì), per dare un contesto su come il punteggio è influenzato dall'uso di modelli più potenti, così come la differenza di costo.
Rimanete sintonizzati 👀

1 set, 20:47
🚀 Nuovo agente di punta al 80,3%
Benchmark sul completo SWE-Bench, e uno strumento per verificare su qualsiasi benchmark tu voglia in arrivo presto 🔜

19,88K
Principali
Ranking
Preferiti