今では会話のようなリアルタイムの音声を生成できます。 マイクロソフトは、最初の音声遅延とストリーミング入力が約300msのリアルタイムテキスト読み上げシステムであるVibeVoiceをオープンソース化しました。 長い会話でも崩れずに対応できます。 このモデルは長く複数話者の音声を生成します。 最大90分の音声を生成します。 最大4人の異なるスピーカーをサポートします。 ターンの取り方は長時間のセッションでも一貫しています。 時間解像度を下げることで機能します。 音声は意味的トークンと音響的トークンに圧縮されます。 これらはフレームレベルの音声ではなく7.5Hzで動作します。 言語モデルは構造を予測します。 ディフュージョンヘッドは音響のディテールを回復します。 低遅延のストリーミング音声を可能にします。 リアルタイムのバリアントはテキストを段階的にストリーミングします。 最初のスピーチは~300ミリ秒後に届きます。 WebSocketのデモではライブ生成が示されています。 コードはMITのライセンスを受けており、研究用のみです。 リポジトリはすでに2万のGitHubスターを超えています。
1. これが役に立ちましたか?フォローを忘れずに!私は毎日、すべての開発者が知っておくべきAIのブレイクスルーについて投稿しています。 2. いいねやリツイートはとてもありがたいです。 3. またチェックする価値は、25万人+のAI開発者が読んでいるニュースレターです。
129