Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

pash
Attualmente responsabile dell'@cline AI | Precedente @meta Grafo della conoscenza | Creatore di Vault // @usc allume
Annunciamo cline-bench, un benchmark open source del mondo reale per la codifica agentica.
cline-bench è costruito a partire da compiti di ingegneria del mondo reale forniti da sviluppatori partecipanti dove i modelli all'avanguardia hanno fallito e gli esseri umani hanno dovuto intervenire.
Ogni compito accettato diventa un ambiente RL completamente riproducibile con uno snapshot del repository iniziale, un prompt reale e test di verità fondamentale dal codice che alla fine è stato spedito.
Per laboratori e ricercatori, questo significa:
> puoi valutare i modelli su lavori di ingegneria genuini, non su puzzle di leetcode.
> ottieni ambienti compatibili con Harbor e strumenti di valutazione moderni per confronti affiancati.
> puoi utilizzare gli stessi compiti per SFT e RL in modo che l'addestramento e la valutazione rimangano ancorati a flussi di lavoro di ingegneria reali.
Oggi apriamo i contributi e iniziamo a raccogliere compiti attraverso il Cline Provider. La partecipazione è facoltativa e limitata a repository open source.
Quando un compito difficile mette in difficoltà un modello e tu intervieni, quel fallimento può essere trasformato in un ambiente standardizzato che l'intera comunità può studiare, benchmarkare e addestrare.
Se lavori su problemi open source difficili, specialmente OSS commerciali, vorrei invitarti personalmente a partecipare. Ci impegniamo a sponsorizzare i manutentori open source con $1M per partecipare all'iniziativa cline-bench.
"Cline-bench è un ottimo esempio di come benchmark open e del mondo reale possano far progredire l'intero ecosistema. Compiti di codifica di alta qualità e verificati, ancorati a flussi di lavoro reali degli sviluppatori, sono esattamente ciò di cui abbiamo bisogno per misurare in modo significativo i modelli all'avanguardia, scoprire modalità di fallimento e spingere lo stato dell'arte."
– @shyamalanadkat, Responsabile delle Valutazioni Applicate @OpenAI
"Nous Research è focalizzata sull'addestramento e la proliferazione di modelli che eccellono in compiti del mondo reale. cline-bench sarà uno strumento integrale nei nostri sforzi per massimizzare le prestazioni e comprendere le capacità dei nostri modelli."
– @Teknium, Responsabile del Post Training @nousresearch
"Siamo grandi fan di tutto ciò che Cline ha fatto per potenziare l'ecosistema AI open source e siamo incredibilmente entusiasti di supportare il rilascio di cline-bench. Ambienti open di alta qualità per la codifica agentica sono estremamente rari. Questo rilascio sarà un grande passo avanti sia come valutazione delle capacità che come campo di prova post-addestramento per compiti reali impegnativi, avanzando la nostra comprensione collettiva e le capacità nello sviluppo di software autonomo."
– @willccbb, Responsabile della Ricerca @PrimeIntellect:
"Condividiamo l'impegno di Cline per l'open source e crediamo che rendere questo benchmark disponibile a tutti ci aiuterà a continuare a spingere le capacità di codifica all'avanguardia dei nostri LLM."
– @b_roziere, Ricercatore @MistralAI:
Tutti i dettagli sono nel blog:

99,62K
nessuna pubblicità richiesta, tra l'altro

Cline18 nov, 09:19
MiniMax M2 è di nuovo gratuito in Cline!
Uno dei modelli open di punta per la codifica e i flussi di lavoro agentici con pensiero intercalato. Inferenza veloce ed efficiente per compiti complessi. Gratuito per un periodo limitato. Scusa perfetta per provarlo.

6,52K
Principali
Ranking
Preferiti


