一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

您现在可以生成听起来像对话的实时语音。微软刚刚开源了 VibeVoice，这是一种实时文本转语音系统，首次音频延迟约为 300 毫秒，并支持流式输入。它能够处理长时间的对话而不会崩溃。 𝗧𝗵𝗶𝘀 𝗺𝗼𝗱𝗲𝗹 𝗴𝗲𝗻𝗲𝗿𝗮𝘁𝗲𝘀 𝗹𝗼𝗻𝗴, 𝗺𝘂𝗹𝘁𝗶-𝘀𝗽𝗲𝗮𝗸𝗲𝗿 𝘀𝗽𝗲𝗲𝗰𝗵. 它可以生成长达 90 分钟的音频。它支持多达四个不同的发言者。在长时间的会话中，轮流发言保持一致。 𝗜𝘁 𝘄𝗼𝗿𝗸𝘀 𝗯𝘆 𝗿𝗲𝗱𝘂𝗰𝗶𝗻𝗴 𝘁𝗶𝗺𝗲 𝗿𝗲𝘀𝗼𝗹𝘂𝘁𝗶𝗼𝗻. 音频压缩为语义和声学标记。它们以 7.5 Hz 的速度运行，而不是帧级音频。语言模型预测结构。扩散头恢复声学细节。 𝗜𝘁 𝗮𝗹𝗹𝗼𝘄𝘀 𝗹𝗼𝘄-𝗹𝗮𝘁𝗲𝗻𝗰𝘆 𝘀𝘁𝗿𝗲𝗮𝗺𝗶𝗻𝗴 𝗮𝘂𝗱𝗶𝗼. 实时变体以增量方式流式传输文本。首次语音在 ~300 毫秒内到达。 WebSocket 演示显示实时生成。代码是 MIT 许可，仅供研究使用。该仓库已经获得超过 2 万个 GitHub 星标。

1. 觉得这个有用吗？别忘了关注我！我每天发布关于每个开发者都需要了解的AI突破。 2. 非常感谢点赞/转发。 3. 还值得一看的是：这个通讯，已有超过25万名AI开发者阅读。

93