Consegui acesso antecipado ao PixVerse-R1, um modelo de mundo em tempo real. Isto é bastante promissor! O R1 é um paradigma fundamentalmente diferente: Em vez de gerar clipes fixos, cria fluxos visuais infinitos e contínuos que respondem instantaneamente à entrada do utilizador. (Códigos de convite abaixo)
A plataforma gera vídeos de forma notavelmente rápida! Você pode começar com um clipe e adicionar novas cenas a ele. O modelo mantém a consistência à medida que você avança. A maioria das ferramentas de vídeo lhe dá um clipe, e você começa de novo. Isso parece mais como dirigir algo que já está em movimento.
A arquitetura do modelo da @PixVerse_ tem três peças críticas: 1. Um modelo de base multimodal nativo que unifica texto, imagem, vídeo e áudio em um único fluxo de tokens. 2. Um mecanismo de memória autorregressivo que mantém a consistência em sequências indefinidamente longas. 3. Um "Motor de Resposta Instantânea" que reduz os passos de amostragem de dezenas para 1-4. Essa última parte é fundamental: é o que faz este modelo funcionar em tempo real.
Conseguir que o modelo gere exatamente o que você tem em mente ainda é difícil. Leva várias tentativas para realizar uma história específica. Este é um problema com a geração de vídeo em geral. Ainda estamos longe de isso substituir Hollywood.
Existem várias limitações na geração de vídeo em tempo real: 1. Pequenos erros de previsão se acumulam ao longo de sequências prolongadas 2. Os custos computacionais são altos (e ainda são um gargalo) Estamos no início, mas a trajetória aqui parece bastante promissora!
O futuro é realmente brilhante: • Um jogo que gera os ambientes enquanto jogas. 100% em tempo real. • Um filme onde o espectador influencia os desfechos narrativos. • Simulações para pesquisa, planeamento industrial e até modelagem ecológica que evoluem com base nas decisões. Esse é o objetivo aqui: Ter "mundos interativos e persistentes em vez de artefatos de mídia finitos."
239