Apresentamos uma receita melhor para coletar dados pós-treinamento ao usar GRPO. Coletar amostras de especialistas é caro, os orçamentos de anotação são limitados. Quais exemplos realmente valem a pena pagar? Descobrimos que focar em amostras difíceis resulta em uma melhoria de 30-40%. 1/7
31,37K