متجر التطبيق اللامركزي | مركز Web3 للأحداث والألعاب

المواضيع الرائجة

يمكنك الآن توليد كلام في الوقت الحقيقي يبدو وكأنه محادثة. مايكروسوفت قامت مؤخرا بفتح مصدرها VibeVoice، وهو نظام تحويل نص إلى كلام في الوقت الحقيقي مع تأخير صوتي ~300 مللي ثانية في الصوت الأول وإدخال البث المتدفق. يتعامل مع المحادثات الطويلة دون أن ينهار. هذا النموذج يولد خطابا طويلا متعدد المتحدثين. ينتج حتى 90 دقيقة من الصوت. يدعم حتى أربعة سماعات مميزة. يبقى أخذ الأدوار ثابتا على مدى الجلسات الطويلة. يعمل عن طريق تقليل دقة الوقت. يتم ضغط الصوت إلى رموز دلالية وصوتية. تعمل على 7.5 هرتز بدلا من الصوت على مستوى الإطار. نموذج اللغة يتنبأ بالبنية. يعيد رأس الانتشار التفاصيل الصوتية. يسمح ببث صوتي منخفض التأخير. النسخة الفورية تبث النص تدريجيا. يصل الخطاب الأول في ~300 مللي ثانية. عرض تجريبي على WebSocket يظهر التوليد الحي. الكود مرخص من معهد ماساتشوستس للتكنولوجيا وللبحث فقط. المستودع تجاوز بالفعل 20 ألف نجم على GitHub.

1. هل وجدت هذا مفيدا؟ لا تنس المتابعة! أنشر يوميا عن الاختراقات الذكاء الاصطناعي التي يجب أن يعرفها كل مطور. 2. الإعجابات/إعادة التغريد محل تقدير كبير. 3. يستحق أيضا التحقق: النشرة الإخبارية، التي يقرأها مطورو الذكاء الاصطناعي من 250k+.

‏‎130‏

الأفضل

المُتصدِّرة

التطبيقات المفضلة