SALMONN एक ऑडियो-टेक्स्ट मल्टी-मॉडल बड़े भाषा मॉडल ढांचा है, जिसका उद्देश्य बड़े भाषा मॉडल की सामान्य श्रवण क्षेत्र की समझ और प्रसंस्करण क्षमताओं का विस्तार करना है। ढांचे में गैर-भाषण BEATs ऑडियो एनकोडर, OpenAI Whisper ढांचे का भाषण एनकोडर और विंडो स्तर का Q-Former जैसे घटकों का समावेश किया गया है, जो ऑडियो-टेक्स्ट संरेखण के लिए उच्च स्तर के समय समाधान को सक्षम बनाता है। सक्रियण समायोजन चरण के बाद, SALMONN ऑडियो उपशिर्षक, भाषण अनुवाद जैसे कार्यों में प्रतिस्पर्धी प्रदर्शन प्राप्त करता है, जो सामान्य श्रवण क्षमताओं को प्रदर्शित करता है।