リアルタイムのモデルであるPixVerse-R1の早期アクセス権を得ました。 これはかなり期待できそうです! R1は根本的に異なるパラダイムです: 固定クリップを生成する代わりに、ユーザーの入力に即座に反応する無限で連続した視覚ストリームを作り出します。 (招待コードは下記)
このプラットフォームは動画を明らかに速く生成します! クリップから始めて新しいシーンを追加できます。 モデルは進み続ける中で一貫性を保ちます。 ほとんどの動画ツールはクリップを渡して、最初からやり直します。これはすでに動いているものを操縦しているような感覚です。
@PixVerse_のモデルのアーキテクチャは三つの重要な要素から成り立っています。 1. テキスト、画像、動画、音声を一つのトークンストリームに統合するネイティブなマルチモーダル基盤モデル。 2. 無限に長い連続で一貫性を維持する自己回帰的記憶機構。 3. 「インスタントレスポンスエンジン」で、サンプリングのステップを数十から1〜4に削減します。 この最後の部分が鍵です。このモデルがリアルタイムで機能する理由です。
モデルに自分のイメージを正確に生成させるのは依然として難しいです。特定の物語を実現するには何度も試みる必要があります。 これは動画生成全般の問題です。私たちはまだ、これがハリウッドに取って代わるには遠い道のりです。
リアルタイムビデオ生成にはいくつかの制限があります: 1. 拡張列に対して小さな予測誤差が重なり合います 2. 計算コストが高く(依然としてボトルネック) まだ早いですが、ここまでの進捗はかなり良さそうです!
未来は本当に明るいです: ・プレイ中に環境を生成するゲーム。100%即興で。 ・観客が物語の展開に影響を与える映画。 ・意思決定に基づいて進化する研究、産業計画、さらには生態学的モデリングのためのシミュレーション。 これがここでの目標です: 「有限のメディアアーティファクトではなく、持続的でインタラクティブな世界」を持つこと。
238