西北工業大學開源語音理解模型OSUM,結合Whisper和Qwen2,支持8種語音理解任務
在人工智能領域,語言模型的快速發展引發了語音理解語言模型(SULMs)的廣泛關注。近日,西北工業大學 ASLP 實驗室發佈了開放語音理解模型 OSUM,旨在探索在學術資源有限的情況下,如何有效訓練和利用語音理解模型,以推動學術界的研究與創新。OSUM 模型融合了 Whisper 編碼器與 Qwen2語言模型,支持8種語音任務,包括語音識別(ASR)、帶時間戳的語音識別(SRWT)、語音事件檢測(VED)、語音情感識別(SER)、說話風格識別(SSR)、說話人性別分類(SGC)、說話人年齡預測(SAP)及語音轉文本聊天(STTC)。