您现在可以生成听起来像对话的实时语音。 微软刚刚开源了 VibeVoice,这是一种实时文本转语音系统,首次音频延迟约为 300 毫秒,并支持流式输入。 它能够处理长时间的对话而不会崩溃。 𝗧𝗵𝗶𝘀 𝗺𝗼𝗱𝗲𝗹 𝗴𝗲𝗻𝗲𝗿𝗮𝘁𝗲𝘀 𝗹𝗼𝗻𝗴, 𝗺𝘂𝗹𝘁𝗶-𝘀𝗽𝗲𝗮𝗸𝗲𝗿 𝘀𝗽𝗲𝗲𝗰𝗵. 它可以生成长达 90 分钟的音频。 它支持多达四个不同的发言者。 在长时间的会话中,轮流发言保持一致。 𝗜𝘁 𝘄𝗼𝗿𝗸𝘀 𝗯𝘆 𝗿𝗲𝗱𝘂𝗰𝗶𝗻𝗴 𝘁𝗶𝗺𝗲 𝗿𝗲𝘀𝗼𝗹𝘂𝘁𝗶𝗼𝗻. 音频压缩为语义和声学标记。 它们以 7.5 Hz 的速度运行,而不是帧级音频。 语言模型预测结构。 扩散头恢复声学细节。 𝗜𝘁 𝗮𝗹𝗹𝗼𝘄𝘀 𝗹𝗼𝘄-𝗹𝗮𝘁𝗲𝗻𝗰𝘆 𝘀𝘁𝗿𝗲𝗮𝗺𝗶𝗻𝗴 𝗮𝘂𝗱𝗶𝗼. 实时变体以增量方式流式传输文本。 首次语音在 ~300 毫秒内到达。 WebSocket 演示显示实时生成。 代码是 MIT 许可,仅供研究使用。 该仓库已经获得超过 2 万个 GitHub 星标。
1. 觉得这个有用吗?别忘了关注我!我每天发布关于每个开发者都需要了解的AI突破。 2. 非常感谢点赞/转发。 3. 还值得一看的是:这个通讯,已有超过25万名AI开发者阅读。
93