热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
您现在可以生成听起来像对话的实时语音。
微软刚刚开源了 VibeVoice,这是一种实时文本转语音系统,首次音频延迟约为 300 毫秒,并支持流式输入。
它能够处理长时间的对话而不会崩溃。
𝗧𝗵𝗶𝘀 𝗺𝗼𝗱𝗲𝗹 𝗴𝗲𝗻𝗲𝗿𝗮𝘁𝗲𝘀 𝗹𝗼𝗻𝗴, 𝗺𝘂𝗹𝘁𝗶-𝘀𝗽𝗲𝗮𝗸𝗲𝗿 𝘀𝗽𝗲𝗲𝗰𝗵.
它可以生成长达 90 分钟的音频。
它支持多达四个不同的发言者。
在长时间的会话中,轮流发言保持一致。
𝗜𝘁 𝘄𝗼𝗿𝗸𝘀 𝗯𝘆 𝗿𝗲𝗱𝘂𝗰𝗶𝗻𝗴 𝘁𝗶𝗺𝗲 𝗿𝗲𝘀𝗼𝗹𝘂𝘁𝗶𝗼𝗻.
音频压缩为语义和声学标记。
它们以 7.5 Hz 的速度运行,而不是帧级音频。
语言模型预测结构。
扩散头恢复声学细节。
𝗜𝘁 𝗮𝗹𝗹𝗼𝘄𝘀 𝗹𝗼𝘄-𝗹𝗮𝘁𝗲𝗻𝗰𝘆 𝘀𝘁𝗿𝗲𝗮𝗺𝗶𝗻𝗴 𝗮𝘂𝗱𝗶𝗼.
实时变体以增量方式流式传输文本。
首次语音在 ~300 毫秒内到达。
WebSocket 演示显示实时生成。
代码是 MIT 许可,仅供研究使用。
该仓库已经获得超过 2 万个 GitHub 星标。
1. 觉得这个有用吗?别忘了关注我!我每天发布关于每个开发者都需要了解的AI突破。
2. 非常感谢点赞/转发。
3. 还值得一看的是:这个通讯,已有超过25万名AI开发者阅读。
93
热门
排行
收藏
