DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

Sie können jetzt Echtzeit-Sprachausgaben erzeugen, die sich konversational anhören. Microsoft hat gerade VibeVoice als Open Source veröffentlicht, ein Echtzeit-Text-zu-Sprache-System mit ~300 ms erster Audio-Latenz und Streaming-Eingabe. Es bewältigt lange Gespräche, ohne auseinanderzufallen. 𝗗𝗲𝘀𝗲𝘀 𝗠𝗼𝗱𝗲𝗹 𝗴𝗲𝗻𝗲𝗿𝗶𝗲𝗿𝘁 𝗹𝗼𝗻𝗴𝗲, 𝗺𝘂𝗹𝘁𝗶-𝘀𝗽𝗲𝗮𝗸𝗲𝗿 𝗦𝗽𝗿𝗮𝗰𝗵. Es produziert bis zu 90 Minuten Audio. Es unterstützt bis zu vier verschiedene Sprecher. Der Sprecherwechsel bleibt über lange Sitzungen hinweg konsistent. 𝗘𝘀 𝗳𝘂𝗻𝗸𝘁𝗶𝗼𝗻𝗶𝗲𝗿𝘁, 𝗱𝗮𝘀 𝗭𝗲𝗶𝘁𝗿𝗮𝗵𝗺𝗲𝗻 𝗿𝗲𝗱𝘂𝘇𝗶𝗲𝗿𝘁. Audio wird in semantische und akustische Tokens komprimiert. Sie laufen mit 7,5 Hz anstelle von frame-level Audio. Ein Sprachmodell sagt die Struktur voraus. Ein Diffusionskopf stellt akustische Details wieder her. 𝗘𝘀 𝗲𝗿𝗵𝗼𝗹𝘁 𝗹𝗼𝘄-𝗹𝗮𝘁𝗲𝗻𝗰𝘆 𝘀𝘁𝗿𝗲𝗮𝗺𝗶𝗻𝗴 𝗔𝘂𝗱𝗶𝗼. Die Echtzeit-Variante streamt Text inkrementell. Die erste Sprache kommt in ~300 ms an. Eine WebSocket-Demo zeigt die Live-Generierung. Der Code ist MIT-lizenziert und nur für Forschungszwecke. Das Repository hat bereits 20k GitHub-Sterne erreicht.

1. Fandest du das nützlich? Vergiss nicht zu folgen! Ich poste täglich über die AI-Durchbrüche, die jeder Entwickler wissen muss. 2. Likes/Retweets werden sehr geschätzt. 3. Ebenfalls einen Blick wert: der Newsletter, gelesen von über 250.000 AI-Entwicklern.

83

Top

Ranking

Favoriten