المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
يمكنك الآن توليد كلام في الوقت الحقيقي يبدو وكأنه محادثة.
مايكروسوفت قامت مؤخرا بفتح مصدرها VibeVoice، وهو نظام تحويل نص إلى كلام في الوقت الحقيقي مع تأخير صوتي ~300 مللي ثانية في الصوت الأول وإدخال البث المتدفق.
يتعامل مع المحادثات الطويلة دون أن ينهار.
هذا النموذج يولد خطابا طويلا متعدد المتحدثين.
ينتج حتى 90 دقيقة من الصوت.
يدعم حتى أربعة سماعات مميزة.
يبقى أخذ الأدوار ثابتا على مدى الجلسات الطويلة.
يعمل عن طريق تقليل دقة الوقت.
يتم ضغط الصوت إلى رموز دلالية وصوتية.
تعمل على 7.5 هرتز بدلا من الصوت على مستوى الإطار.
نموذج اللغة يتنبأ بالبنية.
يعيد رأس الانتشار التفاصيل الصوتية.
يسمح ببث صوتي منخفض التأخير.
النسخة الفورية تبث النص تدريجيا.
يصل الخطاب الأول في ~300 مللي ثانية.
عرض تجريبي على WebSocket يظهر التوليد الحي.
الكود مرخص من معهد ماساتشوستس للتكنولوجيا وللبحث فقط.
المستودع تجاوز بالفعل 20 ألف نجم على GitHub.
1. هل وجدت هذا مفيدا؟ لا تنس المتابعة! أنشر يوميا عن الاختراقات الذكاء الاصطناعي التي يجب أن يعرفها كل مطور.
2. الإعجابات/إعادة التغريد محل تقدير كبير.
3. يستحق أيضا التحقق: النشرة الإخبارية، التي يقرأها مطورو الذكاء الاصطناعي من 250k+.
130
الأفضل
المُتصدِّرة
التطبيقات المفضلة
