Obtuve acceso anticipado a PixVerse-R1, un modelo en tiempo real. ¡Esto es bastante prometedor! R1 es un paradigma fundamentalmente diferente: En lugar de generar clips fijos, crea flujos visuales infinitos y continuos que responden instantáneamente a la entrada del usuario. (Códigos de invitación abajo)
¡La plataforma genera vídeos notablemente rápido! Puedes empezar con un clip y añadirle nuevas escenas. El modelo mantiene la consistencia a medida que avanzas. La mayoría de las herramientas de vídeo te dan un clip y empiezas de nuevo. Esto se siente más como dirigir algo que ya está en marcha.
La arquitectura del modelo de @PixVerse_ tiene tres elementos clave: 1. Un modelo nativo multimodal de fundación que unifica texto, imagen, vídeo y audio en un solo flujo de token. 2. Un mecanismo de memoria autorregresiva que mantiene la consistencia a lo largo de secuencias indefinidamente largas. 3. Un "Motor de Respuesta Instantánea" que reduce los pasos de muestreo de decenas a 1-4. Esa última parte es clave: es lo que hace que este modelo funcione en tiempo real.
Conseguir que el modelo genere exactamente lo que tienes en mente sigue siendo difícil. Se necesitan varios intentos para realizar una historia concreta. Este es un problema general de la generación de vídeo. Todavía estamos lejos de que esto sustituya a Hollywood.
Existen varias limitaciones en la generación de vídeo en tiempo real: 1. Pequeños errores de predicción acumulados sobre secuencias extendidas 2. Los costes computacionales son altos (y siguen siendo un cuello de botella) Vamos pronto, pero la trayectoria aquí pinta bastante bien.
El futuro es realmente prometedor: • Un juego que genera los entornos mientras juegas. 100% improvisado. • Una película en la que el espectador influye en los resultados narrativos. • Simulaciones para investigación, planificación industrial e incluso modelización ecológica que evolucionan en función de las decisiones. Ese es el objetivo aquí: Tener "mundos persistentes e interactivos en lugar de artefactos mediáticos finitos."
239