J'ai eu un accès anticipé à PixVerse-R1, un modèle de monde en temps réel. C'est plutôt prometteur ! R1 est un paradigme fondamentalement différent : Au lieu de générer des clips fixes, il crée des flux visuels infinis et continus qui réagissent instantanément aux entrées de l'utilisateur. (Codes d'invitation ci-dessous)
La plateforme génère des vidéos de manière remarquablement rapide ! Vous pouvez commencer avec un clip et y ajouter de nouvelles scènes. Le modèle maintient la cohérence au fur et à mesure que vous avancez. La plupart des outils vidéo vous donnent un clip, et vous repartez de zéro. Cela ressemble plus à diriger quelque chose qui est déjà en mouvement.
L'architecture du modèle de @PixVerse_ comprend trois éléments critiques : 1. Un modèle de fondation multimodal natif qui unifie le texte, l'image, la vidéo et l'audio en un seul flux de jetons. 2. Un mécanisme de mémoire autorégressif qui maintient la cohérence à travers des séquences indéfiniment longues. 3. Un "Moteur de Réponse Instantanée" qui réduit le nombre d'étapes d'échantillonnage de dizaines à 1-4. Cette dernière partie est clé : c'est ce qui permet à ce modèle de fonctionner en temps réel.
Obtenir le modèle pour générer exactement ce que vous avez en tête est encore difficile. Il faut plusieurs essais pour réaliser une histoire spécifique. C'est un problème avec la génération vidéo en général. Nous sommes encore loin que cela remplace Hollywood.
Il existe plusieurs limitations avec la génération de vidéos en temps réel : 1. De petites erreurs de prédiction s'accumulent sur de longues séquences 2. Les coûts de calcul sont élevés (et restent un goulot d'étranglement) Nous sommes encore au début, mais la trajectoire ici semble plutôt bonne !
L'avenir est vraiment prometteur : • Un jeu qui génère les environnements au fur et à mesure que vous jouez. 100 % en temps réel. • Un film où le spectateur influence les résultats narratifs. • Des simulations pour la recherche, la planification industrielle et même la modélisation écologique qui évoluent en fonction des décisions. C'est l'objectif ici : Avoir des "mondes persistants et interactifs plutôt que des artefacts médiatiques finis."
272