A maioria dos benchmarks de VLM observa o mundo; poucos perguntam como as ações *mudam* isso a partir da perspectiva de um robô. A cognição incorporada nos diz que a inteligência não é apenas observar – é realizada através da interação. 👉Apresentamos o ENACT: Um benchmark que testa se os VLMs conseguem acompanhar a evolução de um ambiente em escala doméstica a partir da visão egocêntrica de um robô. 🌐 📄 1/N