Los LLM no están mejorando... Claro, sí, vale, amigo.
Simplemente ve a , selecciona un conjunto de modelos entre los saltos de versiones principales (por ejemplo, GPT-3.5, GPT-4 y GPT-5) y dales a todos la misma indicación.
Es imposible dejar de verlo.
Ahora llevo probando Opus 4.5 contra GPT-5.1-Codex-Max en tareas de backend durante las últimas 24 horas y, sinceramente, no consigo decidir un ganador claro.
Normalmente, al comparar modelos, el ganador queda bastante claro muy rápido. Esta vez no.
Las pruebas continúan.