这是世界上最好、最快的语音转文本模型: • 处理30分钟音频只需23.2秒 • 93.3%的准确率 • 支持说话人分离以检测多个发言者 • 在1250万小时的多语言数据上训练 我试了一下,效果相当令人印象深刻:
62.03K