這是世界上最好、最快的語音轉文本模型: • 處理30分鐘音頻只需23.2秒 • 93.3%的準確率 • 支持說話人分離以檢測多個發言者 • 在1250萬小時的多語言數據上訓練 我試了一下,效果相當令人印象深刻:
62.03K