La plupart des benchmarks VLM observent le monde ; peu se demandent comment les actions *le changent* du point de vue d'un robot. La cognition incarnée nous dit que l'intelligence n'est pas seulement une observation – elle se manifeste à travers l'interaction. 👉Nous introduisons ENACT : un benchmark qui teste si les VLM peuvent suivre l'évolution d'un environnement à l'échelle domestique du point de vue égocentrique d'un robot. 🌐 📄 1/N