Cadre SALMONN : étendre les capacités auditives universelles des grands modèles de langage

站长之家

Publié leActualités IA · 1 minutes de lecture · Nov 29, 2023

117

Le framework SALMONN, en intégrant différents encodeurs auditifs et une étape d'ajustement de l'activation, a atteint des performances auditives générales compétitives. Son architecture multimodale permet aux grands modèles linguistiques de comprendre et de traiter directement les entrées audio générales, démontrant des performances compétitives sur diverses tâches.

SALMONN LLM Multimodal

Cet article provient d'AIbase Daily

Bienvenue dans la section [AI Quotidien] ! Voici votre guide pour explorer le monde de l'intelligence artificielle chaque jour. Chaque jour, nous vous présentons les points forts du domaine de l'IA, en mettant l'accent sur les développeurs, en vous aidant à comprendre les tendances technologiques et à découvrir des applications de produits IA innovantes.

—— Créé par le groupe AIbase Daily

Recommandations d'actualités IA connexes

Le nouveau modèle multimodal de vivo arrive ! Les capacités d'intelligence artificielle à comprendre l'interface graphique de l'utilisateur s'améliorent encore !

vivo lance BlueLM-2.5-3B, un modèle multimodal efficace avec compréhension d'interface. 2.9B paramètres, excellentes performances en traitement de texte et logique, spécialisé dans les interfaces grâce à son entraînement sur des captures d'écran chinoises.....

Jul 10, 2025

Kunlun Wildfire lance Skywork-R1V 3.0 : Les capacités de raisonnement multimodal s'approchent de celles des experts humains !

Kunlun Wanwei lance le modèle multimodal Skywork-R1V3.0, atteignant un niveau expert humain. Avec 12k et 13k échantillons, il surpasse Claude-3.7-Sonnet et GPT-4.5 (76 sur MMMU), excellant en physique (52.8), logique (59.7) et math (77.1). Open source, il propulse l'IA.....

Jul 9, 2025

Journal de l'IA : Tencent Hunyuan lance un grand modèle de génération 3D, Hunyuan3D-PolyGen ; les tableaux d'IA DingTalk arrivent en force ; Alibaba présente un grand modèle linguistique multimodal HumanOmniV2

1. Tencent lance Hunyuan3D-PolyGen, un modèle 3D avec BPT boostant l'efficacité de 70%. 2. Alibaba HumanOmniV2 atteint 69.33% de précision multilingue. 3. DingTalk AI traite 1000 tâches/heure avec fonction 'tableau-document'. 4. Baidu PaddleOCR 3.1 reconnaît 37 langues (+30% précision). 5. Microsoft Deep Research API ouvert. 6. PolyU & OPPO améliorent x10 la vitesse vidéo avec DLoRAL. 7. Google open-source MCP Toolbox pour SQL. 8. Win11 prépare d....

Jul 8, 2025

EarthMind : un modèle multimodal open source révolutionnant l'analyse des données de télémétrie terrestre

EarthMind, un modèle open source multimodal pour l'observation terrestre, intègre des modules d'attention spatiale et une fusion multimodale pour l'analyse multi-échelle (image/région/pixel).....

Jul 7, 2025

Découverte de la compatibilité de l'apprentissage par renforcement des LLM : l'Université de Shanghai Jiao Tong révèle les différences entre Llama et Qwen, et présente OctoThinker

Les grands modèles linguistiques (LLM) ont obtenu des progrès significatifs dans les tâches de raisonnement complexes en combinant les instructions de tâche et l'apprentissage par renforcement à grande échelle (RL), comme le modèle Deepseek-R1-Zero qui applique directement l'apprentissage par renforcement au modèle de base, montrant une grande capacité de raisonnement. Cependant, ce succès est difficile à reproduire dans différentes séries de modèles de base, notamment dans la série Llama. Cela soulève une question centrale : quels facteurs entraînent une incohérence dans les performances des modèles de base lors de l'apprentissage par renforcement ? L'apprentissage par renforcement dans

Jul 3, 2025

GLM-4.1V-Thinking de Zhipu AI : un nouveau roi du raisonnement multimodal, défiant les modèles les plus performants mondiaux

Jul 2, 2025

Le Tech Festival des Jeunes Résistants de Taotian Group 4.0 est officiellement lancé : le grand modèle de recommandation à 10 milliards de paramètres RecGPT est désormais en ligne

Hier, le groupe Taotian a annoncé lors de son événement « Tech Festival des Jeunes Résistants 4.0 » que son modèle de recommandation à 10 milliards de paramètres, RecGPT, développé en interne, était désormais en ligne. Ce progrès innovant va entièrement améliorer le flux d'informations « Je vous aime » sur la page d'accueil de l'application Taobao. Grâce à la technologie AIGR (recommandation générative), les utilisateurs bénéficieront d'une expérience de recommandation plus précise et personnalisée. Le lancement de RecGPT marque une étape importante pour Taobao dans le domaine de la recommandation en e-commerce. Les données de test montrent que le flux d'informations recommandé par le modèle RecGPT se distingue fortement, avec un taux de clics élevé.

Jul 1, 2025

« Journal AI du 30 juin » : Baidu ouvre le code de la série WENXIN Grand Model 4.5 ; modèle multimodal Qwen VLo de Tongyi Qianwen

Bienvenue dans l'émission « Journal AI » d'AIbase ! Découvrez en trois minutes chaque jour les grands événements de l'IA et suivez les tendances de l'industrie et les applications innovantes des produits d'IA. Pour plus d'informations sur l'IA, visitez : https://www.aibase.com/zh1. Baidu lance une nouvelle série de modèles WENXIN Grand Model 4.5 avec un open source complet, présentant dix nouveaux modèles avec diverses configurations de paramètres ! Baidu a officiellement lancé la série WENXIN Grand Model 4.5 et l'a complètement ouverte au public, comprenant dix nouveaux modèles avec différentes configurations de paramètres, entraînés et déployés avec le framework PaddlePaddle, avec un taux d'utilisation de FLOPs de 47 %, et performant bien dans les tâches multilingues.

Jun 30, 2025

Dépôt majeur d'Ali Ovis-U1 : un modèle d'intelligence artificielle multimodal triplement intégré, le code source ouvert stimule les développeurs du monde entier

Le 29 juin 2025, l'équipe internationale d'IA d'Alibaba a officiellement lancé le nouveau grand modèle multimodal **Ovis-U1**, marquant une autre grande avancée dans le domaine de l'intelligence artificielle multimodale. En tant que dernier chef-d'œuvre de la série Ovis, Ovis-U1 intègre en un seul outil la compréhension multimodale, la génération d'images et l'édition d'images, démontrant ainsi une puissante capacité de traitement intermodale, offrant ainsi de nouvelles possibilités aux développeurs, aux chercheurs et aux applications sectorielles. Voici un reportage détaillé sur Ovis-U1 par AIbase. Ovis-U1

Jun 30, 2025

Qwen VLo, un modèle de compréhension et de génération multimodale uni

Récemment, le modèle multimodal Qwen VLo a été officiellement lancé. Ce modèle a connu des progrès significatifs dans la compréhension et la génération du contenu visuel, offrant aux utilisateurs une nouvelle expérience de création visuelle. Selon les informations fournies, Qwen VLo a été entièrement mis à jour en s'appuyant sur les avantages des modèles précédents de la série Qwen-VL. Ce modèle est capable non seulement de comprendre le "monde" avec précision, mais aussi de réaliser une re-création de haute qualité sur la base de cette compréhension, accomplissant ainsi véritablement le passage de la perception à la génération. Les utilisateurs peuvent désormais utiliser Qwen Chat (chat.qwen.ai)

Jun 28, 2025

100