熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
您現在可以生成聽起來像對話的即時語音。
微軟剛剛開源了 VibeVoice,一個即時文本轉語音系統,具有約 300 毫秒的首次音頻延遲和流式輸入。
它能夠處理長時間的對話而不會崩潰。
𝗧𝗵𝗶𝘀 𝗺𝗼𝗱𝗲𝗹 𝗴𝗲𝗻𝗲𝗿𝗮𝘁𝗲𝘀 𝗹𝗼𝗻𝗴, 𝗺𝘂𝗹𝘁𝗶-𝘀𝗽𝗲𝗮𝗸𝗲𝗿 𝘀𝗽𝗲𝗲𝗰𝗵.
它可以生成長達 90 分鐘的音頻。
它支持最多四個不同的說話者。
在長時間的會話中,輪流發言保持一致。
𝗜𝘁 𝘄𝗼𝗿𝗸𝘀 𝗯𝘆 𝗿𝗲𝗱𝘂𝗰𝗶𝗻𝗴 𝘁𝗶𝗺𝗲 𝗿𝗲𝘀𝗼𝗹𝘂𝘁𝗶𝗼𝗻.
音頻壓縮成語義和聲學標記。
它們以 7.5 Hz 的速度運行,而不是逐幀音頻。
語言模型預測結構。
擴散頭恢復聲學細節。
𝗜𝘁 𝗮𝗹𝗹𝗼𝘄𝘀 𝗹𝗼𝘄-𝗹𝗮𝘁𝗲𝗻𝗰𝘆 𝘀𝘁𝗿𝗲𝗮𝗺𝗶𝗻𝗴 𝗮𝘂𝗱𝗶𝗼.
即時變體逐步流式傳輸文本。
首次語音在約 300 毫秒內到達。
WebSocket 演示顯示實時生成。
該代碼是 MIT 許可的,僅供研究使用。
該庫已經獲得超過 20,000 顆 GitHub 星星。
1. 覺得這有用嗎?別忘了關注我!我每天都會發佈每位開發者需要了解的 AI 突破。
2. 非常感謝您的喜歡/轉發。
3. 也值得查看:這份通訊,已有 250,000 多名 AI 開發者在閱讀。
65
熱門
排行
收藏
