一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

您現在可以生成聽起來像對話的即時語音。微軟剛剛開源了 VibeVoice，一個即時文本轉語音系統，具有約 300 毫秒的首次音頻延遲和流式輸入。它能夠處理長時間的對話而不會崩潰。 𝗧𝗵𝗶𝘀 𝗺𝗼𝗱𝗲𝗹 𝗴𝗲𝗻𝗲𝗿𝗮𝘁𝗲𝘀 𝗹𝗼𝗻𝗴, 𝗺𝘂𝗹𝘁𝗶-𝘀𝗽𝗲𝗮𝗸𝗲𝗿 𝘀𝗽𝗲𝗲𝗰𝗵. 它可以生成長達 90 分鐘的音頻。它支持最多四個不同的說話者。在長時間的會話中，輪流發言保持一致。 𝗜𝘁 𝘄𝗼𝗿𝗸𝘀 𝗯𝘆 𝗿𝗲𝗱𝘂𝗰𝗶𝗻𝗴 𝘁𝗶𝗺𝗲 𝗿𝗲𝘀𝗼𝗹𝘂𝘁𝗶𝗼𝗻. 音頻壓縮成語義和聲學標記。它們以 7.5 Hz 的速度運行，而不是逐幀音頻。語言模型預測結構。擴散頭恢復聲學細節。 𝗜𝘁 𝗮𝗹𝗹𝗼𝘄𝘀 𝗹𝗼𝘄-𝗹𝗮𝘁𝗲𝗻𝗰𝘆 𝘀𝘁𝗿𝗲𝗮𝗺𝗶𝗻𝗴 𝗮𝘂𝗱𝗶𝗼. 即時變體逐步流式傳輸文本。首次語音在約 300 毫秒內到達。 WebSocket 演示顯示實時生成。該代碼是 MIT 許可的，僅供研究使用。該庫已經獲得超過 20,000 顆 GitHub 星星。

1. 覺得這有用嗎？別忘了關注我！我每天都會發佈每位開發者需要了解的 AI 突破。 2. 非常感謝您的喜歡/轉發。 3. 也值得查看：這份通訊，已有 250,000 多名 AI 開發者在閱讀。

65