La mayoría de los benchmarks de VLM observan el mundo; pocos preguntan cómo las acciones *cambian* el mundo desde la perspectiva de un robot. La cognición encarnada nos dice que la inteligencia no es solo observar, sino que se manifiesta a través de la interacción. 👉Presentamos ENACT: Un benchmark que prueba si los VLM pueden seguir la evolución de un entorno a escala doméstica desde la vista egocéntrica de un robot. 🌐 📄 1/N