Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

Тепер ви можете генерувати мову в реальному часі, яка звучить як розмова. Microsoft щойно відкрила VibeVoice — систему перетворення тексту в реальний час з затримкою аудіо ~300 мс першою та потоковим входом. Він веде довгі розмови, не розпадаючись. Ця модель генерує довгу багатомовну мову. Він виробляє до 90 хвилин аудіо. Підтримує до чотирьох окремих динаміків. Чергування залишається стабільним протягом тривалих сесій. Це працює, зменшуючи часову роздільну здатність. Аудіо стискається у семантичні та акустичні токени. Вони працюють на 7,5 Гц замість аудіо на рівні кадрів. Мовна модель передбачає структуру. Дифузійна головка відновлює акустичну деталізацію. Він дозволяє трансляцію аудіо з низькою затримкою. Варіант у реальному часі подає текст поступово. Перша промова приходить за ~300 мс. Демо WebSocket показує живу генерацію. Код ліцензований MIT і призначений лише для досліджень. Репозиторія вже перевищила 20 тисяч зірок на GitHub.

1. Знайшли це корисним? Не забудьте підписатися! Я щодня пишу про прориви в ШІ, які має знати кожен розробник. 2. Лайки/ретвіти дуже цінуються. 3. Також варто перевірити: розсилку, яку читають розробники 250k+ AI.

70

Найкращі

Рейтинг

Вибране