Voit nyt tuottaa reaaliaikaista puhetta, joka kuulostaa keskustelevalta. Microsoft avasi juuri VibeVoicen, reaaliaikaisen tekstistä puheeksi -järjestelmän, jossa on ~300 ms ensimmäinen ääniviive ja suoratoistosyöttö. Se hoitaa pitkiä keskusteluja hajoamatta silti. Tämä malli tuottaa pitkän, monipuhujan puheen. Se tuottaa jopa 90 minuuttia ääntä. Se tukee jopa neljää erillistä kaiutinta. Vuorojen ottaminen pysyy tasaisena pitkien sessioiden ajan. Se toimii lyhentämällä aikaresoluutiota. Ääni pakkaistaan semanttisiin ja akustisiin tokeneihin. Ne toimivat 7,5 Hz taajuudella, eivätkä ruudunpäivityksen tasolla. Kielimalli ennustaa rakennetta. Diffuusiopäässä palauttaa akustiset yksityiskohdat. Se mahdollistaa matalaviiveisen suoratoistoäänen. Reaaliaikaversio virtaa tekstiä asteittain. Ensimmäinen puhe saapuu ~300 ms:n kuluttua. WebSocket-demo näyttää live-generoinnin. Koodi on MIT:n lisensoitu ja vain tutkimuskäyttöön. Takaisinotto on jo ylittänyt 20 000 GitHub-tähteä.
1. Oletko pitänyt tätä hyödyllisenä? Älä unohda seurata! Kirjoitan päivittäin tekoälyn läpimurroista, jotka jokaisen kehittäjän tulisi tietää. 2. Tykkäykset/uudelleentwiittaukset ovat erittäin tervetulleita. 3. Myös tutustumisen arvoinen: uutiskirje, jonka lukee 250 000+ tekoälykehittäjää.
127