Ik heb de afgelopen twee maanden niet veel getweet omdat ik tijd heb besteed aan het leren en experimenteren met verschillende RL-technieken. Ik ben enthousiast om binnenkort wat WIP te delen: 1. Compute-optimaal recept voor GRPO-training 2. RL-gestuurd hulpmiddel om de privacy in LLM-interacties te verbeteren De experimenten zijn veelbelovend geweest 👀
3,88K