Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

pash
Současný šéf AI @cline | Předchozí @meta Znalostní graf | tvůrce trezoru // @usc kamenec
Oznamujeme cline-bench, reálný open source benchmark pro agentické kódování.
Cline-Bench je postaven na skutečných inženýrských úkolech od zúčastněných vývojářů, kde modely Frontier selhaly a museli zasáhnout lidé.
Každý přijatý úkol se stává plně reprodukovatelným RL prostředím s úvodním snímkem repozitáře, skutečným promptem a testy pravdivosti z kódu, který byl nakonec odeslán.
Pro laboratoře a výzkumníky to znamená:
> můžete hodnotit modely podle skutečné inženýrské práce, ne podle leetcode hádanek.
> získáte prostředí kompatibilní s Harborem a moderními hodnotícími nástroji pro srovnání vedle sebe.
> stejné úkoly můžete použít i pro SFT a RL, takže školení a hodnocení zůstávají zakotveny v reálných inženýrských pracovních postupech.
Dnes otevíráme příspěvky a začínáme vybírat úkoly prostřednictvím poskytovatele Cline. Účast je dobrovolná a omezená na open source repozitáře.
Když těžký úkol zablokuje model a vy zasáhnete, lze tento neúspěch proměnit ve standardizované prostředí, které může celá komunita studovat, porovnávat a trénovat.
Pokud pracujete na obtížných open source problémech, zejména komerčních OSS, rád bych vás osobně pozval k pomoci. Věnujeme 1 milion dolarů sponzorování správců open source, aby se zapojili do iniciativy cline-bench.
"Cline-bench je skvělým příkladem toho, jak otevřené, reálné benchmarky mohou posunout celý ekosystém vpřed. Vysoce kvalitní, ověřené programátorské úkoly založené na skutečných pracovních postupech vývojářů jsou přesně to, co potřebujeme k smysluplnému měření modelů na hranicích, odhalení způsobů selhání a posunu na úroveň techniky."
– @shyamalanadkat, vedoucí aplikovaných evaluací @OpenAI
"Nous Research se zaměřuje na trénování a rozšiřování modelů, které vynikají v reálných úkolech. Cline-Bench bude nedílným nástrojem v našich snahách maximalizovat výkon a pochopit schopnosti našich modelů."
– @Teknium, vedoucí výcviku @nousresearch
"Jsme velkými fanoušky všeho, co Cline dělá pro posílení open source AI ekosystému, a jsme nesmírně nadšeni, že můžeme podpořit vydání Cline-bench. Vysoce kvalitní otevřená prostředí pro agentické kódování jsou mimořádně vzácná. Toto vydání bude mít velký význam jak jako hodnocení schopností, tak jako testovací platforma po školení pro náročné reálné úkoly, čímž posune naše společné porozumění a schopnosti v oblasti autonomního vývoje softwaru."
– @willccbb, vedoucí výzkumu @PrimeIntellect:
"Sdílíme závazek Cline k open source a věříme, že zpřístupnění tohoto benchmarku všem nám pomůže pokračovat v posouvání hranic programátorských schopností našich LLM."
– @b_roziere, vědecký @MistralAI:
Podrobnosti najdete na blogu:

99,6K
Mimochodem, reklamy nejsou potřeba

Cline18. 11. 09:19
MiniMax M2 je v Cline opět zdarma!
Jeden z nejlépe hodnocených otevřených modelů pro programování a agentické pracovní postupy s prokládaným myšlením. Rychlá inference a efektivní pro složité úkoly. Zdarma na omezenou dobu. Perfektní záminka to vyzkoušet.

6,51K
Top
Hodnocení
Oblíbené


