西北工業大学オープンソース音声理解モデルOSUM、WhisperとQwen2を組み合わせ、8種類の音声理解タスクに対応
人工知能分野において、言語モデルの急速な発展は、音声理解言語モデル(SULMs)への注目を集めています。最近、西北工業大学ASLP研究所は、学術資源が限られた状況下で、音声理解モデルを効果的に訓練し活用する方法を探求し、学術界の研究とイノベーションを促進することを目的としたオープン音声理解モデルOSUMを発表しました。OSUMモデルはWhisperエンコーダーとQwen2言語モデルを融合し、音声認識(ASR)、タイムスタンプ付きなど8種類の音声タスクに対応しています。