V posledních dvou měsících jsem toho moc netweetoval, protože jsem strávil čas učením se a experimentováním s různými technikami RL. Těším se, že se brzy podělím o některé WIP: 1. Výpočtově optimální recept na školení GRPO 2. Nástroj využívající RL pro zvýšení soukromí v interakcích s LLM Experimenty byly slibné 👀
3,85K