Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Puhutaanpa kehyksistä, kirjastoista, RL:stä ja siitä, miksi en luultavasti pidä suosikki RL-koodikannastasi. Kyllä, myös se.
Epätavallista RL:ssä on, että algoritmi on helppo osa. GRPO on yksirivinen yhtälö joillakin logprobeilla. Jos sinulla on dataa, menetyksen laskeminen on triviaalia, ja sitten oletettavasti käytät sitä valitsemasi taustakirjaston kanssa.
Mutta se on ongelma - tietojen saaminen. Se on tuskaa. Tavallisessa RL:ssä sinun on tehtävä julkaisuja, ehkä katkaistava joitain jaksoja ja käsiteltävä päät sen mukaisesti. Jos et halua olla etana, sinun kannattaa vektorisoida ympäristö ja mukauttaa algoritmi siihen. Jos haluat tehdä LLM:n, sinun on tehtävä kaikki hölynpöly, joka saa LLM:t mahtumaan muistiin. Sinun on oltava varovainen kehotteiden suhteen, peitettävä oikeat osat menetystä varten. Tarvitset kunnollisen sukupolven moottorin (vLLM), mikä tekee painojen päivittämisestä tuskaa. Jos haluat tehdä usean agentin monikierrosta LLM RL:n, voit yhtä hyvin tehdä commit sudoku.
Vaikka meillä on monia erimielisyyksiä melkein kaikesta RL:ään liittyvästä, mielestäni @jsuarez5341's Pufferlib havainnollistaa tätä asiaa kauniisti. Se on epäilemättä uskomaton siinä, mitä se tekee - kouluttaa RL-algoja simuloiduissa ympäristöissä hyvin, hyvin nopeasti.
Mutta suurin osa sen uutuudesta on puhdasta infraa. Ydinalgoritmit ovat pitkälti samoja kuin ne ovat olleet vuosia, ja olen valmis lyömään vetoa, että ne edustavat alle 10 % suunnittelun kokonaistyöstä.
Luonnollisesti tällä on vaikutuksia koodiin, joka sinun on kirjoitettava tehdäksesi mitään muuta kuin sisäänrakennettujen esimerkkien suorittamisen. Huomaan kerta toisensa jälkeen, että monien riittävän ei-triviaalien (lue: mielenkiintoisten) tutkimusongelmien kohdalla vie saman verran aikaa (a) kirjoittaa asia tyhjästä/yksinkertaisista primitiivistä, tai (b) mukauttaa olemassa oleva viitekehys hulluihin ideoihin.
Ensin mainitussa keskityt varsinaisen logiikan kirjoittamiseen. Jälkimmäisessä väännät kehystä, jotta voit lisätä logiikan. Tiedän, mistä pidän enemmän.
Kaikki tämä johtuu siitä, että algoritmi on helppo osa.
Infra on kipu perseessä. Joten aina kun sinulla on mahdollisuus valita, käytä infraa yksinkertaistavia työkaluja ja kirjoita harjoitussilmukka itse. Älä rakenna kehyksiä, rakenna kirjastoja. Kiität itseäsi myöhemmin.
Iso huuto maisterin ohjaajalleni aikoinaan, joka oli ensimmäinen, joka käski minua jättämään rllibin ja kirjoittamaan PPO:n itse PyTorchiin. Ja @hallerite siitä, että inspiroit minua vihdoin kirjoittamaan tämän paasauksen. Saatan kirjoittaa kunnon ponnistelupostauksen esimerkkeineen jossain vaiheessa tulevaisuudessa, jos ihmiset sitä vaativat.
Johtavat
Rankkaus
Suosikit

