Hugging Faceの研究者らは、リソースが限られた環境における大規模事前学習済み音声認識モデルの展開に関する問題を最近解決しました。
膨大なオープンソースデータセットを作成し、擬似ラベル付け手法を用いることで、Whisperモデルの小型版であるDistil-Whisperを蒸留しました。このモデルは、困難な音響条件下においても元のモデルの堅牢性を維持し、長尺音声における幻覚エラーも解決しています。
本研究では大規模擬似ラベル付け手法を導入し、新たな音声データ知識蒸留アプローチを提供することで、モデル展開の問題を解決しました。Whisperは、様々なデータセットにおいて優れた性能を示す大規模事前学習済みASRモデルですが、Distil-Whisperはゼロショット設定で1%未満のWERを達成し、音声認識モデルの展開問題に対する新たな解決策をもたらします。