esto es genial. predigo que para mayo de 2026 cualquiera podrá entrenar un modelo personalizado como este para ~cualquier tarea a través de alguna combinación de prime-rl/verificadores, tinker, skyRL, slime, etc. la ventaja competitiva será saber qué tarea realizar con RL y la magia de datos/entornos.