Har ikke tvitret mye de siste to månedene da jeg brukte tid på å lære og eksperimentere med ulike RL-teknikker. Gleder meg til å dele litt WIP snart: 1. Beregn-optimal oppskrift for GRPO-trening 2. RL-drevet verktøy for å forbedre personvernet i LLM-interaksjoner Eksperimentene har vært lovende 👀
3,86K