Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Prime Intellect
Prime Intellect repostoval/a
.@willccbb (vedoucí výzkumu, Prime Intellect) o tom, jak prostředí RL skutečně fungují:
"Prostředí je v podstatě vyhodnocení. Máte vstupní úkoly, svazek a na konci se hodnotí, jak si váš model nebo agent vede. To je nastavení, které používáme jak pro eval, tak pro RL trénink."
Dodává, že budoucnost není jen o tom, "dostat 100 000 GPU do jednoho obrovského clusteru".
12,31K
Prime Intellect repostoval/a
V éře předškolního vzdělávání byly důležité internetové textové zprávy. Primárně byste chtěli velkou, rozmanitou a vysoce kvalitní sbírku internetových dokumentů, ze kterých byste se mohli učit.
V době řízeného dolaďování to byly rozhovory. Smluvní pracovníci jsou najímáni, aby vytvářeli odpovědi na otázky, trochu jako to, co byste viděli na Stack Overflow / Quora atd., ale zaměřené na případy použití LLM.
Ani jedno z výše uvedených nezmizí (imo), ale v této éře zpětnovazebního učení je to nyní prostředí. Na rozdíl od výše uvedeného dávají LLM příležitost skutečně interagovat - podnikat akce, vidět výsledky atd. To znamená, že můžete doufat, že se vám podaří mnohem lépe než napodobení statistického odborníka. A lze je použít jak pro trénování modelů, tak pro jejich vyhodnocování. Ale stejně jako dříve, jádrem problému je nyní potřeba velké, rozmanité a vysoce kvalitní sady prostředí, jako cvičení, proti kterým by LLM mohl cvičit.
V některých ohledech mi to připomíná úplně první projekt OpenAI (tělocvična), což byl přesně rámec, který doufal, že vytvoří velkou sbírku prostředí ve stejném schématu, ale to bylo dávno před LLM. Takže prostředí byla v té době jednoduchými akademickými kontrolními úkoly, jako cartpole, ATARI atd. Centrum @PrimeIntellect environments (a úložiště "verifiers" na GitHubu) vytváří modernizovanou verzi specificky zaměřenou na LLM a je to skvělé úsilí/nápad. Navrhl jsem, aby někdo postavil něco podobného na začátku tohoto roku:
Prostředí mají tu vlastnost, že jakmile je kostra rámce na svém místě, v principu se komunita / průmysl může paralelizovat v mnoha různých doménách, což je vzrušující.
Závěrečná myšlenka - osobně a dlouhodobě, jsem optimistický ohledně prostředí a agentických interakcí, ale jsem medvědí konkrétně ohledně posilovaného učení. Myslím si, že funkce odměny jsou super sus a myslím si, že lidé nepoužívají RL k učení (možná to dělají pro některé motorické úkoly atd., ale ne pro intelektuální úkoly na řešení problémů). Lidé používají různá paradigmata učení, která jsou výrazně výkonnější a efektivnější pro vzorkování a která ještě nebyla řádně vynalezena a škálována, i když existují rané náčrty a nápady (jako jeden příklad, myšlenka "systémového promptního učení", přesunutí aktualizace na tokeny/kontexty, nikoli na váhy a volitelně destilace na váhy jako samostatný proces, trochu jako spánek).
372,6K
Prime Intellect repostoval/a
Nová generace startupu 10B+ oceňovacích produktů bude postavena na škálování školení v interním prostředí RL
Žijeme v nepřeberném množství možností, a přesto máme pouze dva hlavní produkty AI, chatgpt a kódovacího agenta, a to mě hluboce frustruje
Současný dodavatelský řetězec umělé inteligence je strukturálně přerušen s jedním dodavatelem hardwaru, několika obřími hráči s umělou inteligencí, kteří vlastní veškerou rafinérii inteligence, a vývojářům, kterým zůstal přístup k api téměř bez kontroly.
Jako by internetová éra byla postavena tak, že Intel prodal CPU 4 obřím cloudům, vlastnil celou infrastrukturu a softwarový stack s tajemstvím a nda všude a dal wordpress jako vývojový kit pro startup
Proč zmatek nevynalezl hluboký výzkum? Prostě nemohli, protože je to trénink s RL
Moje předpověď na příští roky:
RL se stane nejvýkonnější sadou nástrojů pro vytváření AI produktů pro startupy. Uvidíme stovky úspěšných příběhů jako kurzor a roztomilý. Koncový uživatel z toho bude mít největší prospěch
Velké laboratoře se vyvinou směrem k produktové společnosti, oai se zaměří na spotřebitelský trh, Antropic na kódovacího agenta, deepmind integruje AI do všech podniků Google, meta a XAI bojují o sociální média
Uvidíme vznik ekosystému startupů infrastruktury AI, prodej počítačů, model tréninkových základů, kurátorství dat, budování prostředí RL, nabízení levné inference a školení, poháněné otevřenou vědou a softwarem s otevřeným zdrojovým kódem.
@PrimeIntellect je průkopníkem tohoto ekosystému a vize open source agi, RL environment hub je jedním z prvních klíčových prvků
3,23K
Prime Intellect repostoval/a
Nová generace startupu 10B+ oceňovacích produktů bude postavena na škálování školení v interním prostředí RL
Žijeme v nepřeberném množství možností, a přesto máme pouze dva hlavní produkty AI, chatgpt a kódovacího agenta, a to mě hluboce frustruje
Současný dodavatelský řetězec umělé inteligence je strukturálně přerušen s jedním dodavatelem hardwaru, několika obřími hráči s umělou inteligencí, kteří vlastní veškerou rafinérii inteligence, a vývojářům, kterým zůstal přístup k api téměř bez kontroly.
Jako by internetová éra byla postavena tak, že Intel prodal CPU 4 obřím cloudům, vlastnil celou infrastrukturu a softwarový stack s tajemstvím a nda všude a dal wordpress jako vývojový kit pro startup
Proč zmatek nevynalezl hluboký výzkum? Prostě nemohli, protože je to trénink s RL
**Moje predikce na další roky**:
RL se stane nejvýkonnější sadou nástrojů pro vytváření AI produktů pro startupy. Uvidíme stovky úspěšných příběhů jako kurzor a roztomilý. Koncový uživatel z toho bude mít největší prospěch
Velké laboratoře se vyvinou směrem k produktové společnosti, oai se zaměří na spotřebitelský trh, Antropic na kódovacího agenta, deepmind integruje AI do všech podniků Google, meta a XAI bojují o sociální média
Uvidíme vznik ekosystému startupů infrastruktury AI, prodej počítačů, model tréninkových základů, kurátorství dat, budování prostředí RL, nabízení levné inference a školení, poháněné otevřenou vědou a softwarem s otevřeným zdrojovým kódem.
@PrimeIntellect je průkopníkem tohoto ekosystému a vize open source agi, RL environment hub je jedním z prvních klíčových prvků
6,49K
Top
Hodnocení
Oblíbené