您現在可以生成聽起來像對話的即時語音。 微軟剛剛開源了 VibeVoice,一個即時文本轉語音系統,具有約 300 毫秒的首次音頻延遲和流式輸入。 它能夠處理長時間的對話而不會崩潰。 𝗧𝗵𝗶𝘀 𝗺𝗼𝗱𝗲𝗹 𝗴𝗲𝗻𝗲𝗿𝗮𝘁𝗲𝘀 𝗹𝗼𝗻𝗴, 𝗺𝘂𝗹𝘁𝗶-𝘀𝗽𝗲𝗮𝗸𝗲𝗿 𝘀𝗽𝗲𝗲𝗰𝗵. 它可以生成長達 90 分鐘的音頻。 它支持最多四個不同的說話者。 在長時間的會話中,輪流發言保持一致。 𝗜𝘁 𝘄𝗼𝗿𝗸𝘀 𝗯𝘆 𝗿𝗲𝗱𝘂𝗰𝗶𝗻𝗴 𝘁𝗶𝗺𝗲 𝗿𝗲𝘀𝗼𝗹𝘂𝘁𝗶𝗼𝗻. 音頻壓縮成語義和聲學標記。 它們以 7.5 Hz 的速度運行,而不是逐幀音頻。 語言模型預測結構。 擴散頭恢復聲學細節。 𝗜𝘁 𝗮𝗹𝗹𝗼𝘄𝘀 𝗹𝗼𝘄-𝗹𝗮𝘁𝗲𝗻𝗰𝘆 𝘀𝘁𝗿𝗲𝗮𝗺𝗶𝗻𝗴 𝗮𝘂𝗱𝗶𝗼. 即時變體逐步流式傳輸文本。 首次語音在約 300 毫秒內到達。 WebSocket 演示顯示實時生成。 該代碼是 MIT 許可的,僅供研究使用。 該庫已經獲得超過 20,000 顆 GitHub 星星。
1. 覺得這有用嗎?別忘了關注我!我每天都會發佈每位開發者需要了解的 AI 突破。 2. 非常感謝您的喜歡/轉發。 3. 也值得查看:這份通訊,已有 250,000 多名 AI 開發者在閱讀。
65