Ho avuto accesso anticipato a PixVerse-R1, un modello di mondo in tempo reale. Questo è piuttosto promettente! R1 è un paradigma fondamentalmente diverso: Invece di generare clip fisse, crea flussi visivi infiniti e continui che rispondono istantaneamente all'input dell'utente. (Codici di invito qui sotto)
La piattaforma genera video in modo notevolmente veloce! Puoi iniziare con un clip e aggiungere nuove scene. Il modello mantiene coerenza mentre continui. La maggior parte degli strumenti video ti fornisce un clip e ricominci da capo. Questo sembra più come guidare qualcosa che è già in movimento.
L'architettura del modello di @PixVerse_ ha tre componenti critiche: 1. Un modello fondazionale multimodale nativo che unifica testo, immagine, video e audio in un unico flusso di token. 2. Un meccanismo di memoria autoregressivo che mantiene la coerenza attraverso sequenze di lunghezza indefinita. 3. Un "Motore di Risposta Istantanea" che riduce i passaggi di campionamento da decine a 1-4. Questa ultima parte è fondamentale: è ciò che rende questo modello funzionante in tempo reale.
Far sì che il modello generi esattamente ciò che hai in mente è ancora difficile. Ci vogliono più tentativi per realizzare una storia specifica. Questo è un problema con la generazione video in generale. Siamo ancora lontani dal far sì che questo sostituisca Hollywood.
Ci sono diverse limitazioni nella generazione di video in tempo reale: 1. Piccoli errori di previsione si accumulano su sequenze prolungate 2. I costi computazionali sono elevati (e rappresentano ancora un collo di bottiglia) Siamo all'inizio, ma la traiettoria qui sembra piuttosto buona!
Il futuro è davvero luminoso: • Un gioco che genera gli ambienti mentre giochi. 100% al volo. • Un film in cui lo spettatore influenza gli esiti narrativi. • Simulazioni per la ricerca, la pianificazione industriale e persino la modellazione ecologica che evolvono in base alle decisioni. Questo è l'obiettivo qui: Avere "mondi interattivi e persistenti piuttosto che artefatti mediatici finiti."
270