AIBase
首頁
AI資訊
AI產品庫
模型廣場
MCP服务
AI服務
算力市場
AI應用指南
TW

AI資訊

查看更多

西北工業大學開源語音理解模型OSUM,結合Whisper和Qwen2,支持8種語音理解任務

在人工智能領域,語言模型的快速發展引發了語音理解語言模型(SULMs)的廣泛關注。近日,西北工業大學 ASLP 實驗室發佈了開放語音理解模型 OSUM,旨在探索在學術資源有限的情況下,如何有效訓練和利用語音理解模型,以推動學術界的研究與創新。OSUM 模型融合了 Whisper 編碼器與 Qwen2語言模型,支持8種語音任務,包括語音識別(ASR)、帶時間戳的語音識別(SRWT)、語音事件檢測(VED)、語音情感識別(SER)、說話風格識別(SSR)、說話人性別分類(SGC)、說話人年齡預測(SAP)及語音轉文本聊天(STTC)。

18k 2 天前
西北工業大學開源語音理解模型OSUM,結合Whisper和Qwen2,支持8種語音理解任務

AI產品

查看更多
Osum

Osum

AI市場研究工具,為增長提供洞見

市場研究
6.7k
AIBase
智啟未來,您的人工智能解決方案智庫
English简体中文繁體中文にほんご
友情链接:
AI Newsletters AI ToolsMCP ServersAI NewsAIBaseLLM LeaderboardAI Ranking
© 2025AIBase
商務合作網站地圖