Não twittei muito nos últimos dois meses, pois passei um tempo aprendendo e experimentando várias técnicas de RL. Animado para compartilhar alguns WIP em breve: 1. Receita ideal de computação para treinamento GRPO 2. Ferramenta com tecnologia RL para aumentar a privacidade nas interações LLM Os experimentos têm sido promissores 👀
3,87K