分散型アプリ（DApp）ストア｜イベントおよびゲーム用 Web3 ハブ

トレンドトピック

今では会話のようなリアルタイムの音声を生成できます。マイクロソフトは、最初の音声遅延とストリーミング入力が約300msのリアルタイムテキスト読み上げシステムであるVibeVoiceをオープンソース化しました。長い会話でも崩れずに対応できます。このモデルは長く複数話者の音声を生成します。最大90分の音声を生成します。最大4人の異なるスピーカーをサポートします。ターンの取り方は長時間のセッションでも一貫しています。時間解像度を下げることで機能します。音声は意味的トークンと音響的トークンに圧縮されます。これらはフレームレベルの音声ではなく7.5Hzで動作します。言語モデルは構造を予測します。ディフュージョンヘッドは音響のディテールを回復します。低遅延のストリーミング音声を可能にします。リアルタイムのバリアントはテキストを段階的にストリーミングします。最初のスピーチは~300ミリ秒後に届きます。 WebSocketのデモではライブ生成が示されています。コードはMITのライセンスを受けており、研究用のみです。リポジトリはすでに2万のGitHubスターを超えています。

1. これが役に立ちましたか?フォローを忘れずに!私は毎日、すべての開発者が知っておくべきAIのブレイクスルーについて投稿しています。 2. いいねやリツイートはとてもありがたいです。 3. またチェックする価値は、25万人+のAI開発者が読んでいるニュースレターです。

129

トップ

ランキング

お気に入り