Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Cline
Przekształcamy Twoje wnioskowanie w kod produkcyjny.
Cline 3.38.3 jest już dostępny!
Nowości:
- Rozszerzona funkcjonalność i interfejs Hooks
- Grok 4.1 i Grok Code dodane do XAI
- Natywne wywoływanie narzędzi dla Baseten i Kimi K2
- Poziom myślenia dla podglądu Gemini 3.0 Pro
Poprawki dla poleceń slash, Vertex, terminala Windows oraz myślenia/rozumowania w różnych dostawcach
12,72K
OpenAI jasno stwierdziło, że oceny powinny "uczynić niejasne cele konkretnymi i wyraźnymi", a oceny na granicy muszą być połączone z ocenami kontekstowymi, które odpowiadają rzeczywistym przepływom pracy, a nie placom zabaw dla zapytań:
To, co opisuje @shyamalanadkat, szef Applied Evals w @OpenAI, to ta sama pętla, której chcemy dla agentów kodujących z cline-bench: wspólny zestaw złotych, trudnych, rzeczywistych zadań kodowania, w których modele miały trudności, a ludzie musieli interweniować, zapakowane jako powtarzalne środowiska, aby laboratoria i zespoły mogły określić, jak wygląda "świetny" wynik, mierzyć wydajność w rzeczywistych warunkach i poprawiać się, ucząc się na konkretnych przypadkach niepowodzeń:
Jeśli chcesz pełnego kontekstu na temat tego, jak OpenAI myśli o ocenach, wprowadzenie jest tutaj:



pash21 lis, 03:54
Ogłaszamy cline-bench, otwarty benchmark w rzeczywistym świecie dla agentycznego kodowania.
cline-bench jest zbudowany na podstawie rzeczywistych zadań inżynieryjnych od uczestniczących deweloperów, gdzie modele graniczne zawiodły, a ludzie musieli interweniować.
Każde zaakceptowane zadanie staje się w pełni reprodukowalnym środowiskiem RL z początkowym zrzutem repozytorium, rzeczywistym promptem i testami prawdy z kodu, który ostatecznie został wdrożony.
Dla laboratoriów i badaczy oznacza to:
> możesz oceniać modele na autentycznej pracy inżynieryjnej, a nie na zagadkach leetcode.
> otrzymujesz środowiska kompatybilne z Harbor i nowoczesnymi narzędziami oceny do porównań obok siebie.
> możesz używać tych samych zadań do SFT i RL, aby trening i ocena były osadzone w rzeczywistych przepływach pracy inżynieryjnej.
Dziś otwieramy wkłady i zaczynamy zbierać zadania przez Cline Provider. Udział jest opcjonalny i ograniczony do otwartych repozytoriów.
Kiedy trudne zadanie zaskoczy model, a ty interweniujesz, ta porażka może zostać przekształcona w ustandaryzowane środowisko, które cała społeczność może badać, benchmarkować i trenować.
Jeśli pracujesz nad trudnymi problemami open source, szczególnie komercyjnymi OSS, chciałbym osobiście zaprosić cię do pomocy. Zobowiązujemy się do sponsorowania 1 miliona dolarów dla utrzymujących otwarte źródła, aby wzięli udział w inicjatywie cline-bench.
"Cline-bench to doskonały przykład tego, jak otwarte, rzeczywiste benchmarki mogą posunąć cały ekosystem naprzód. Wysokiej jakości, zweryfikowane zadania kodowania osadzone w rzeczywistych przepływach pracy deweloperów są dokładnie tym, czego potrzebujemy, aby znacząco mierzyć modele graniczne, odkrywać tryby awarii i pchać stan sztuki naprzód."
– @shyamalanadkat, Szef Oceny Zastosowań @OpenAI
"Nous Research koncentruje się na szkoleniu i rozpowszechnianiu modeli, które doskonale radzą sobie z zadaniami w rzeczywistym świecie. cline-bench będzie integralnym narzędziem w naszych wysiłkach, aby maksymalizować wydajność i zrozumieć możliwości naszych modeli."
– @Teknium, Szef Po Treningu @nousresearch
"Jesteśmy ogromnymi fanami wszystkiego, co Cline robi, aby wspierać ekosystem AI open source, i jesteśmy niezwykle podekscytowani wsparciem dla wydania cline-bench. Wysokiej jakości otwarte środowiska dla agentycznego kodowania są niezwykle rzadkie. To wydanie będzie miało ogromne znaczenie zarówno jako ocena możliwości, jak i jako testowe środowisko po treningu dla trudnych zadań w rzeczywistym świecie, posuwając nasze wspólne zrozumienie i możliwości w zakresie autonomicznego rozwoju oprogramowania naprzód."
– @willccbb, Lider Badań @PrimeIntellect:
"Podzielamy zaangażowanie Cline'a w open source i wierzymy, że udostępnienie tego benchmarku wszystkim pomoże nam nadal pchać granice możliwości kodowania naszych LLM-ów."
– @b_roziere, Naukowiec Badawczy @MistralAI:
Szczegóły znajdują się w blogu:

6,76K
Wysokiej jakości otwarte środowiska do agentycznego kodowania są wciąż rzadkością.
cline-bench ma na celu wypełnienie tej luki, służąc zarówno jako zestaw oceniający, jak i testowe środowisko po szkoleniu dla trudnych, rzeczywistych zadań programistycznych.
Dlatego przemawia do ludzi takich jak @willccbb, lider badań w @PrimeIntellect, którzy dbają o konkretne, powtarzalne problemy, które posuwają rozwój autonomicznego oprogramowania naprzód.

5,53K
Najlepsze
Ranking
Ulubione

