En ole twiitannut paljon viimeisen kahden kuukauden aikana, koska vietin aikaa oppien ja kokeilemalla erilaisia RL-tekniikoita. Innoissani voidessani jakaa keskeneräistä työtä pian: 1. Laskentaoptimaalinen resepti GRPO-koulutukseen 2. RL-käyttöinen työkalu yksityisyyden parantamiseen LLM-vuorovaikutuksessa Kokeilut ovat olleet lupaavia 👀
3,87K