これは、世界最高かつ最速の音声テキスト変換モデルです。 - 30分の音声を23.2秒で処理 - 93.3%の精度 •複数の話者を検出するためのダイアライゼーションのサポート • 1,250 万時間の多言語データでトレーニング済み 試してみたところ、かなり印象的です。