Acum poți genera vorbire în timp real care sună conversațional. Microsoft tocmai a deschis WibeVoice, un sistem text-to-speech în timp real cu ~300 ms latență audio inițială și intrare în streaming. Gestionează conversații lungi fără să se destrame. Acest model generează vorbire lungă, cu mai multe difuzoare. Produce până la 90 de minute de audio. Suportă până la patru difuzoare distincte. Schimbarea de rând rămâne constantă pe parcursul sesiunilor lungi. Funcționează prin reducerea rezoluției de timp. Sunetul se comprimă în tokenuri semantice și acustice. Acestea rulează la 7,5 Hz în loc de sunet la nivel de cadru. Un model de limbaj prezice structura. Un cap de difuzie restabilește detaliile acustice. Permite streaming audio cu latență scăzută. Varianta în timp real transmite textul incremental. Primul discurs vine în ~300 ms. O demonstrație WebSocket arată generarea live. Codul este licențiat de MIT și doar pentru cercetare. Repo a depășit deja 20.000 de stele pe GitHub.
1. Ți s-a părut util? Nu uita să urmărești! Postez zilnic despre descoperirile AI pe care orice dezvoltator trebuie să le cunoască. 2. Like-urile/retweet-urile sunt foarte apreciate. 3. Merită de asemenea verificat: newsletter-ul, citit de 250k+ dezvoltatori AI.
149