Presentamos una mejor receta para recopilar datos posteriores al entrenamiento cuando se usa GRPO. La recolección de muestras de expertos es costosa, los presupuestos de anotación son limitados. ¿Por qué ejemplos vale la pena pagar? Descubrimos que centrarse en muestras duras da como resultado una mejora del 30-40%. 1/7
31.37K