Le framework SALMONN, en intégrant différents encodeurs auditifs et une étape d'ajustement de l'activation, a atteint des performances auditives générales compétitives. Son architecture multimodale permet aux grands modèles linguistiques de comprendre et de traiter directement les entrées audio générales, démontrant des performances compétitives sur diverses tâches.