Presentiamo Code Review Bench v0:
Il primo benchmark indipendente per la revisione del codice. Oltre 200.000 PR. Imparziale. Completamente OSS. Aggiornato quotidianamente.
Punti salienti delle prestazioni dello strumento 🧵👇
In evidenza: @augmentcode @baz_scm @claudeai @coderabbitai @cursor @GeminiApp @github @graphite @greptile @kilocode @OpenAIDevs @propelcode @QodoAI
Annunciamo ARES - il nostro suite open-source per la Ricerca e Valutazione Agentica.
ARES è costruito attorno a 3 pilastri (👇 vedi il thread) per rendere l'apprendimento per rinforzo per agenti di codice facile.
Abbiamo anche scoperto che è incredibilmente utile per la nostra ricerca sull'interpretazione meccanica.
$1.000.000 per capire come gli LLM scrivono codice.
Annuncio: La Sfida dell'Interpretabilità Marziana.
Comprendere il funzionamento interno degli LLM è la più grande sfida scientifica della nostra epoca,. Risolviamola.
Candidati qui:
🧵👇