マイクロソフトが世界最高精度の音声認識モデル「MAI-Transcribe-1」をリリース
マイクロソフトは新しい音声からテキストへの変換モデル「MAI-Transcribe-1」を発表しました。25の言語において平均単語誤り率は3.9%にとどまり、世界で最も正確な変換モデルとなりました。このモデルはFLEURSのベンチマークテストで優れたパフォーマンスを示しており、特に英語などの11種類の主要言語での効果が際立っています。これはマイクロソフトのMAIシリーズの第3弾となる製品で、以前には音声合成および画像生成モデルがリリースされています。