DApp Store | Centrum Web3 pro události a hry

Populární témata

Ariel

Aight pojďme si promluvit o frameworkech, knihovnách, RL a proč se mi pravděpodobně nelíbí váš oblíbený RL kód. Ano, včetně tohoto. Neobvyklá věc na RL je, že algoritmus je ta jednodušší část. GRPO je jednořádková rovnice na některých logprobech. Pokud data máte, výpočet ztráty je triviální a pak je pravděpodobně používáte s backprop knihovnou dle vašeho výběru. Ale to je ten problém -- získávání dat. Je to osina v zadku. V běžném RL musíte dělat rollouty, možná zkrátit některé epizody, a podle toho se vypořádat s konci. Pokud nechcete být šnekem, budete chtít prostředí vektorizovat a přizpůsobit tomu algoritmus. Pokud chcete dělat LLM, musíte dělat všechny ty nesmysly, díky kterým se LLM vejdou do paměti. Musíte si dávat pozor na své výzvy, maskovat správné části pro ztrátu. Potřebujete motor slušné generace (vLLM), kvůli kterému je pak nepříjemné aktualizovat váhy. Pokud chcete dělat multi-agent multi-turn LLM RL, můžete také spáchat sudoku. I když máme mnoho neshod téměř na čemkoli, co souvisí s RL, myslím, že Pufferlib @jsuarez5341 tento bod krásně ilustruje. Je to bezpochyby neuvěřitelné v tom, co dělá - trénuje RL algoritmy na simulovaných prostředích velmi, velmi rychle. Ale většina jeho novosti je čistě infra. Základní algoritmy jsou z velké části stejné, jako byly po celá léta, a jsem ochoten se vsadit, že představují méně než 10 % celkového inženýrského úsilí. To má přirozeně dopad na kód, který musíte napsat, abyste mohli dělat cokoli nad rámec spouštění vestavěných příkladů. Znovu a znovu zjišťuji, že u mnoha dostatečně netriviálních (rozuměj: zajímavých) výzkumných problémů trvá podobně dlouho (a) napsat věc od nuly/z jednoduchých primitiv, nebo (b) přizpůsobit existující rámec tak, aby vyhovoval bláznivým nápadům. V prvním případě se soustředíte na psaní skutečné logiky. V druhém případě se dohadujete o rámci, který vám umožní přidat logiku. Vím víc, co se mi líbí. To vše je proto, že algoritmus je ta snadná část. Infra je osina v zadku. Takže kdykoli si můžete vybrat - použijte nástroje, které zjednodušují infra, a napište si tréninkovou smyčku sami. Nevytvářejte frameworky, ale knihovny. Později si poděkujete. Velký výkřik patří mému vedoucímu magisterského studia z minulosti, který mi jako první řekl, abych přestal používat rllib a psal PPO sám v PyTorchu. A @hallerite za to, že mě inspirovali k tomu, abych konečně napsal tuto tirádu. Možná někdy v budoucnu napíšu pořádný effortpost s příklady, pokud to lidé budou požadovat.

Top

Hodnocení

Oblíbené