Meus amigos da @eternisai acabaram de publicar um artigo mostrando que o treinamento de modelos de IA nos exemplos mais difíceis leva a um desempenho 40% melhor em tarefas de raciocínio. Isso é contra-intuitivo para os humanos que gostam de aprender com as coisas mais fáceis.
Pratyush Ranjan Tiwari
Pratyush Ranjan Tiwari23 de ago. de 2025
Apresentamos uma receita melhor para coletar dados pós-treinamento ao usar o GRPO. A coleta de amostras de especialistas é cara, os orçamentos de anotação são limitados. Quais exemplos realmente valem a pena pagar? Descobrimos que o foco em amostras duras resulta em uma melhoria de 30 a 40%. 1/7
422