トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
今では会話のようなリアルタイムの音声を生成できます。
マイクロソフトは、最初の音声遅延とストリーミング入力が約300msのリアルタイムテキスト読み上げシステムであるVibeVoiceをオープンソース化しました。
長い会話でも崩れずに対応できます。
このモデルは長く複数話者の音声を生成します。
最大90分の音声を生成します。
最大4人の異なるスピーカーをサポートします。
ターンの取り方は長時間のセッションでも一貫しています。
時間解像度を下げることで機能します。
音声は意味的トークンと音響的トークンに圧縮されます。
これらはフレームレベルの音声ではなく7.5Hzで動作します。
言語モデルは構造を予測します。
ディフュージョンヘッドは音響のディテールを回復します。
低遅延のストリーミング音声を可能にします。
リアルタイムのバリアントはテキストを段階的にストリーミングします。
最初のスピーチは~300ミリ秒後に届きます。
WebSocketのデモではライブ生成が示されています。
コードはMITのライセンスを受けており、研究用のみです。
リポジトリはすでに2万のGitHubスターを超えています。
1. これが役に立ちましたか?フォローを忘れずに!私は毎日、すべての開発者が知っておくべきAIのブレイクスルーについて投稿しています。
2. いいねやリツイートはとてもありがたいです。
3. またチェックする価値は、25万人+のAI開発者が読んでいるニュースレターです。
129
トップ
ランキング
お気に入り
