Jag fick tidig tillgång till PixVerse-R1, en realtidsvärldsmodell. Det här är ganska lovande! R1 är ett fundamentalt annorlunda paradigm: Istället för att generera fasta klipp skapar den oändliga, kontinuerliga visuella strömmar som reagerar omedelbart på användarens input. (Inbjudningskoder nedan)
Plattformen genererar videor märkbart snabbt! Du kan börja med ett klipp och lägga till nya scener. Modellen upprätthåller konsekvens ju längre du kommer. De flesta videoverktyg ger dig ett klipp, och du börjar om. Det känns mer som att styra något som redan är i rörelse.
Arkitekturen i @PixVerse_ modell har tre avgörande delar: 1. En inbyggd multimodal grundmodell som förenar text, bild, video och ljud i en tokenström. 2. En autoregressiv minnesmekanism som upprätthåller konsistens över oändligt långa sekvenser. 3. En "Instantaneous Response Engine" som minskar samplingssteg från dussintals till 1-4. Den sista delen är nyckeln: det är det som får denna modell att fungera i realtid.
Att få modellen att generera exakt det du har i åtanke är fortfarande svårt. Det krävs flera försök för att förverkliga en specifik berättelse. Detta är ett problem med videogenerering i allmänhet. Vi är fortfarande långt ifrån att detta ersätter Hollywood.
Det finns flera begränsningar med realtidsvideogenerering: 1. Små prediktionsfel hopas över utökade sekvenser 2. Beräkningskostnaderna är höga (och är fortfarande en flaskhals) Vi är tidiga, men utvecklingen här ser ganska bra ut!
Framtiden ser verkligen ljus ut: • Ett spel som genererar miljöerna medan du spelar. 100% på plats. • En film där tittaren påverkar de narrativa utfallen. • Simuleringar för forskning, industriell planering och till och med ekologisk modellering som utvecklas utifrån beslut. Det är målet här: Att ha "bestående, interaktiva världar snarare än ändliga medieartefakter."
235