AIBase
首頁
AI資訊
AI產品庫
模型廣場
MCP服务
AI服務
算力市場
AI應用指南
數據集市
TW

AI資訊

查看更多

SALMONN框架:拓展大型語言模型通用聽覺能力

["SALMONN是音頻-文本多模型大型語言模型框架,旨在拓展大型語言模型對通用聽覺領域的理解和處理能力。","框架整合了非語音BEATs音頻編碼器、OpenAI Whisper框架的語音編碼器和窗口級Q-Former等組件,實現高水平的時間分辨率,用於音頻-文本對齊。","經過激活調整階段,SALMONN在音頻字幕、語音翻譯等任務中取得競爭性性能,展現了通用聽覺能力。","SALMONN框架的多模態架構和激活調整階段的引入標誌着大型語言模型向通用聽覺能力邁出重要一步,爲多種音頻和語音任務提供了新的可能性。"]

10.8k 1 小時前
SALMONN框架:拓展大型語言模型通用聽覺能力

AI產品

查看更多
SALMONN

SALMONN

SALMONN: 語音音頻語言音樂開放神經網絡

AI語音識別
12.7k
AIBase
智啟未來,您的人工智能解決方案智庫
English简体中文繁體中文にほんご
友情链接:
AI Newsletters AI ToolsMCP ServersAI NewsAIBaseLLM LeaderboardAI Ranking
© 2025AIBase
商務合作網站地圖