SALMONN框架:拓展大型语言模型通用听觉能力
["SALMONN是音频-文本多模型大型语言模型框架,旨在拓展大型语言模型对通用听觉领域的理解和处理能力。","框架整合了非语音BEATs音频编码器、OpenAI Whisper框架的语音编码器和窗口级Q-Former等组件,实现高水平的时间分辨率,用于音频-文本对齐。","经过激活调整阶段,SALMONN在音频字幕、语音翻译等任务中取得竞争性性能,展现了通用听觉能力。","SALMONN框架的多模态架构和激活调整阶段的引入标志着大型语言模型向通用听觉能力迈出重要一步,为多种音频和语音任务提供了新的可能性。"]