Ahora puedes generar voz en tiempo real que suena conversacional. Microsoft acaba de abrir el código de VibeVoice, un sistema de texto a voz en tiempo real con ~300 ms de latencia de audio inicial y entrada de streaming. Maneja largas conversaciones sin desmoronarse. 𝗘𝘀𝘁𝗲 𝗺𝗼𝗱𝗲𝗹𝗼 𝗴𝗲𝗻𝗲𝗿𝗮 𝗹𝗼𝗻𝗴𝗮𝘀, 𝗽𝗲𝗿𝗳𝗼𝗿𝗺𝗮𝗻𝗰𝗲𝘀 𝗺𝘂𝗹𝘁𝗶-𝗵𝗮𝗯𝗹𝗮𝗻𝘁𝗲𝘀. Produce hasta 90 minutos de audio. Soporta hasta cuatro hablantes distintos. El turno de palabra se mantiene consistente durante largas sesiones. 𝗦𝗲 𝗮𝗹𝗹𝗮 𝗿𝗲𝗱𝘂𝗰𝗶𝗲𝗻𝗱𝗼 𝗹𝗮 𝗿𝗲𝘀𝗼𝗹𝘂𝗰𝗶𝗼𝗻 𝗱𝗲 𝘁𝗶𝗲𝗺𝗽𝗼. El audio se comprime en tokens semánticos y acústicos. Funcionan a 7.5 Hz en lugar de audio a nivel de fotograma. Un modelo de lenguaje predice la estructura. Una cabeza de difusión restaura el detalle acústico. 𝗘𝘀 𝗽𝗼𝘀𝗶𝗯𝗹𝗲 𝗹𝗮 𝘀𝘁𝗿𝗲𝗮𝗺𝗶𝗻𝗴 𝗱𝗲 𝗮𝘂𝗱𝗶𝗼 𝗰𝗼𝗻 𝗹𝗮𝘁𝗲𝗻𝗰𝗶𝗮 𝗹𝗼𝘃𝗮. La variante en tiempo real transmite texto de forma incremental. El primer discurso llega en ~300 ms. Una demostración de WebSocket muestra generación en vivo. El código tiene licencia MIT y es solo para investigación. El repositorio ya ha superado las 20k estrellas en GitHub.
1. ¿Te ha parecido útil? ¡No olvides seguirme! Publico diariamente sobre los avances en IA que todo desarrollador necesita conocer. 2. Los me gusta/retweets son muy apreciados. 3. También vale la pena revisar: el boletín, leído por más de 250k desarrolladores de IA.
68