Đây là mô hình chuyển đổi giọng nói thành văn bản nhanh nhất và tốt nhất trên thế giới: • 23,2 giây để xử lý 30 phút âm thanh • Độ chính xác 93,3% • Hỗ trợ phân biệt người nói để phát hiện nhiều người nói • Được đào tạo trên 12,5 triệu giờ dữ liệu đa ngôn ngữ Tôi đã thử nghiệm và nó khá ấn tượng: