Ora puoi generare discorsi in tempo reale che suonano conversazionali. Microsoft ha appena open-sourced VibeVoice, un sistema di sintesi vocale in tempo reale con ~300 ms di latenza audio iniziale e input in streaming. Gestisce lunghe conversazioni senza andare in crisi. 𝗤𝗨𝗘𝗦𝗧𝗢 𝗠𝗢𝗗𝗘𝗟𝗟𝗢 𝗚𝗘𝗡𝗘𝗥𝗔 𝗟𝗢𝗡𝗚𝗛𝗜, 𝗠𝗨𝗟𝗧𝗜-𝗦𝗣𝗘𝗔𝗞𝗘𝗥 𝗦𝗣𝗘𝗘𝗖𝗛. Produce fino a 90 minuti di audio. Supporta fino a quattro relatori distinti. Il turno di parola rimane costante durante lunghe sessioni. 𝗙𝗔𝗖𝗘 𝗖𝗢𝗦𝗜 𝗗𝗔 𝗥𝗘𝗗𝗨𝗖𝗘𝗡𝗗𝗢 𝗟𝗔 𝗥𝗘𝗦𝗢𝗟𝗨𝗭𝗜𝗢𝗡𝗘 𝗗𝗘𝗟 𝗧𝗜𝗠𝗣𝗢. L'audio si comprime in token semantici e acustici. Funzionano a 7,5 Hz invece di audio a livello di frame. Un modello linguistico prevede la struttura. Una testa di diffusione ripristina i dettagli acustici. 𝗜𝗧 𝗔𝗟𝗟𝗢𝗪𝗦 𝗟𝗢𝗪-𝗟𝗔𝗧𝗘𝗡𝗖𝗬 𝗦𝗧𝗥𝗘𝗔𝗠𝗜𝗡𝗚 𝗔𝗨𝗗𝗜𝗢. La variante in tempo reale trasmette il testo in modo incrementale. Il primo discorso arriva in ~300 ms. Una demo WebSocket mostra la generazione dal vivo. Il codice è con licenza MIT e solo per ricerca. Il repository ha già superato i 20k stelle su GitHub.
1. Hai trovato utile questo? Non dimenticare di seguire! Pubblico ogni giorno sui progressi dell'AI che ogni sviluppatore deve conoscere. 2. Mi farebbe molto piacere ricevere like/retweet. 3. Vale anche la pena controllare: la newsletter, letta da oltre 250k sviluppatori di AI.
84