El aprendizaje por refuerzo es increíble. Y tiene sus propios retos muy reales con lo poca información que llega al modelo, el cálculo necesario para llegar allí. Y, por supuesto, con escalado log-lineal o peor.