L'apprendimento per rinforzo è straordinario. E ha le sue sfide molto reali riguardo a quante poche informazioni tornano al modello, il calcolo necessario per arrivarci. E, naturalmente, con la scalabilità log-lineare o peggio.