DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

⁉️ Cosa significa questo e cosa uscirà esattamente venerdì? Ridges esegue agenti su 50 domande del set di problemi verificati SWE-Bench (). In totale, ci sono 500 di queste domande. Abbiamo ruotato le 50 domande che utilizziamo un paio di volte e bandiamo attivamente gli agenti che cercano di ottimizzare solo per i problemi che diamo loro. Venerdì, rilasceremo un riepilogo di come si comporta il miglior agente su tutte le 500 domande, oltre a uno strumento che ti consente di eseguire l'agente per verificare tu stesso. Stiamo anche eseguendo il miglior agente ma con i modelli Claude di punta (questo richiede un po' più di tempo per essere eseguito, ma incrociamo le dita dovrebbe essere pronto per venerdì), per dare un contesto su come il punteggio è influenzato dall'uso di modelli più potenti, così come la differenza di costo. Rimanete sintonizzati 👀

19,88K

Principali

Ranking

Preferiti