SALMONN框架:拓展大型語言模型通用聽覺能力
["SALMONN是音頻-文本多模型大型語言模型框架,旨在拓展大型語言模型對通用聽覺領域的理解和處理能力。","框架整合了非語音BEATs音頻編碼器、OpenAI Whisper框架的語音編碼器和窗口級Q-Former等組件,實現高水平的時間分辨率,用於音頻-文本對齊。","經過激活調整階段,SALMONN在音頻字幕、語音翻譯等任務中取得競爭性性能,展現了通用聽覺能力。","SALMONN框架的多模態架構和激活調整階段的引入標誌着大型語言模型向通用聽覺能力邁出重要一步,爲多種音頻和語音任務提供了新的可能性。"]