Získal jsem předčasný přístup k PixVerse-R1, modelu v reálném čase. To je docela slibné! R1 je zásadně odlišné paradigma: Místo generování pevných klipů vytváří nekonečné, souvislé vizuální proudy, které reagují okamžitě na uživatelský vstup. (Níže uvedené kódy pozvánek)
Platforma generuje videa znatelně rychle! Můžete začít s klipem a přidat do něj nové scény. Model si udržuje konzistenci, jak pokračujete dál. Většina video nástrojů vám dá klip a začnete znovu. Tohle spíš působí jako řízení něčeho, co už je v pohybu.
Architektura modelu @PixVerse_ má tři klíčové části: 1. Nativní multimodální základní model, který sjednocuje text, obraz, video a zvuk do jednoho tokenového proudu. 2. Autoregresní paměťový mechanismus, který udržuje konzistenci napříč nekonečně dlouhými sekvencemi. 3. "Engine okamžité odezvy", který snižuje počet vzorkovacích kroků z desítek na 1–4. Ta poslední část je klíčová: právě to způsobuje, že tento model funguje v reálném čase.
Přimět model, aby generoval přesně to, co máte na mysli, je stále obtížné. Je potřeba několik pokusů, než se uskuteční konkrétní příběh. To je problém generování videa obecně. Jsme stále daleko od toho, abychom Hollywood nahradili.
Existuje několik omezení generování videa v reálném čase: 1. Malé chyby predikce se sčítají při prodloužených sekvencích 2. Výpočetní náklady jsou vysoké (a stále představují úzké hrdlo) Jsme na začátku, ale trajektorie vypadá docela dobře!
Budoucnost je opravdu světlá: • Hra, která generuje prostředí během hraní. Stoprocentně za pochodu. • Film, kde divák ovlivňuje výsledky příběhu. • Simulace pro výzkum, průmyslové plánování a dokonce i ekologické modelování, které se vyvíjejí na základě rozhodnutí. To je zde cíl: Mít "trvalé, interaktivní světy místo konečných mediálních artefaktů."
292