Alibaba lance le nouveau modèle vocal Qwen2-Audio, surpassant OpenAI Whisper

AIbase基地

Publié leActualités IA · 5 minutes de lecture · Aug 10, 2024

494

Récemment, Alibaba a lancé son nouveau modèle linguistique open source Qwen2-Audio, basé sur son prédécesseur Qwen-Audio. Ce modèle excelle non seulement dans la reconnaissance vocale, la traduction et l'analyse audio, mais il affiche également des améliorations significatives en termes de fonctionnalités et de performances. Qwen2-Audio est disponible en version de base et en version affinée par instructions. Les utilisateurs peuvent poser des questions au modèle vocalement et identifier et analyser le contenu.

Par exemple, si un utilisateur demande au modèle d'analyser la voix d'une femme, Qwen2-Audio peut estimer son âge ou analyser ses émotions. S'il s'agit d'un son bruyant, le modèle peut identifier les différentes composantes sonores. Qwen2-Audio prend en charge plusieurs langues, dont le chinois, le cantonais, le français, l'anglais et le japonais, ce qui facilite grandement le développement d'applications d'analyse des sentiments et de traduction.

Accès au produit : https://top.aibase.com/tool/qwen2-audio

Comparé à la première génération, Qwen-Audio, Qwen2-Audio a bénéficié d'une optimisation complète de son architecture et de ses performances. Lors de la phase de pré-entraînement, ce nouveau modèle a utilisé des invites linguistiques plus naturelles, remplaçant les étiquettes hiérarchiques complexes précédentes. Cette amélioration permet au modèle de mieux comprendre et de répondre aux différentes tâches, améliorant ainsi considérablement ses capacités de généralisation.

La capacité de Qwen2-Audio à suivre les instructions a également été considérablement améliorée, lui permettant de comprendre les instructions des utilisateurs avec plus de précision. Par exemple, lorsqu'un utilisateur donne l'instruction « analyser la tendance émotionnelle de cet audio », Qwen2-Audio peut identifier précisément les émotions contenues dans l'audio. De plus, ce modèle intègre deux modes : conversation vocale et analyse audio, rendant l'interaction vocale plus naturelle pour l'utilisateur. En mode analyse audio, Qwen2-Audio peut analyser en profondeur divers types d'audio et fournir des résultats d'analyse détaillés et précis.

Pour garantir que la sortie du modèle corresponde aux attentes humaines, Qwen2-Audio a également intégré des techniques de pointe telles que l'ajustement fin supervisé et l'optimisation des préférences directes. Lors de l'interaction avec les humains, le modèle apparaît plus naturel et précis.

En termes de tests de performance, Qwen2-Audio a obtenu d'excellents résultats dans plusieurs tests de référence, surpassant notamment Whisper-large-v3 d'OpenAI en termes de précision de la reconnaissance vocale et de la traduction. Les performances de ce nouveau modèle ont non seulement suscité un large intérêt dans l'industrie, mais elles présagent également un nouvel avenir pour les technologies vocales.

Points clés :
🌟 Qwen2-Audio est le dernier modèle linguistique open source d'Alibaba, prenant en charge plusieurs langues et offrant de puissantes capacités de reconnaissance et d'analyse.
🚀 Par rapport à la génération précédente, Qwen2-Audio a été considérablement optimisé en termes de performances et d'architecture, améliorant ainsi sa capacité de compréhension et de réponse.
🏆 Lors de nombreux tests de performance, Qwen2-Audio a surpassé Whisper d'OpenAI, démontrant une forte compétitivité.

Qwen2-Audio reconnaissance vocale analyse audio

Cet article provient d'AIbase Daily

Bienvenue dans la section [AI Quotidien] ! Voici votre guide pour explorer le monde de l'intelligence artificielle chaque jour. Chaque jour, nous vous présentons les points forts du domaine de l'IA, en mettant l'accent sur les développeurs, en vous aidant à comprendre les tendances technologiques et à découvrir des applications de produits IA innovantes.

—— Créé par le groupe AIbase Daily

Recommandations d'actualités IA connexes

Google lance le modèle de génération vidéo Veo 3.1 : nouvelles fonctionnalités audio et capacité d'édition précise

Google met à niveau le modèle de génération vidéo Veo 3.1, améliorant la qualité des sorties audio, la précision du contrôle d'édition et la qualité de la conversion d'images en vidéos, permettant de générer des vidéos plus réalistes et de répondre avec précision aux instructions. Les nouvelles fonctionnalités permettent d'ajouter des objets dans les vidéos et de les adapter automatiquement au style visuel, une fonction pour supprimer des objets sera bientôt disponible dans l'outil Flow, afin d'améliorer la flexibilité de l'édition.

Oct 16, 2025

Mise à jour de Flow, l'outil de génération vidéo d'AI de Google : plus flexible à éditer, fonctions audio puissantes

Google améliore son outil vidéo IA Flow avec des effets lumineux pour plus de réalisme et de flexibilité. L'audio est également amélioré pour un contenu plus naturel.....

Oct 16, 2025

iOS26.1Beta3 suggère que l'intelligence d'Apple intégrera davantage de modèles d'IA de tiers comme Gemini de Google

La version bêta 3 du développeur iOS26.1 est sortie, apportant une amélioration de la fonction d'enregistrement audio, permettant d'ajuster le niveau de gain et de personnaliser l'emplacement de stockage lors de l'utilisation d'un micro externe, ainsi qu'une optimisation de la compatibilité avec les montres intelligentes de tiers.

Oct 14, 2025

Journal de l'IA : RoboNeo de Meitu dépasse le million d'utilisateurs actifs mensuels en son premier mois ; le modèle Gaga AI pour la synchronisation audio-vidéo de qualité cinéma est lancé ; le modèle côté terminal Blue Heart 3B de vivo est dévoilé

L'application IA de Meitu, RoboNeo, a dépassé le million d'utilisateurs actifs mensuels en son premier mois. L'entreprise a mis en œuvre des transformations internes et une utilisation approfondie d'outils IA pour favoriser le succès du produit. Le PDG de Meitu, Wu Xinhong, a souligné le concept d'« IA native », promouvant l'innovation centrée sur l'IA. Le produit a rapidement gagné l'approbation du marché, illustrant le potentiel de la technologie IA au niveau des applications.

Oct 10, 2025

La technologie d'IA d'Amazon aide les fans de NBA à découvrir une nouvelle analyse des données

Amazon lancera une plateforme NBA d'analyse intelligente en 2025-2026, utilisant l'IA et le suivi des mouvements pour fournir des données en temps réel.....

Oct 2, 2025

L'application controversée Neon Mobile grimpe à la deuxième position sur l'App Store américain : enregistrer des appels téléphoniques pour les vendre à des entreprises d'intelligence artificielle, le privilège des utilisateurs contre quelques dollars

Une application nommée Neon Mobile se classe deuxième dans la catégorie réseaux sociaux de l'App Store d'Apple aux États-Unis. Elle promet aux utilisateurs de gagner de l'argent en enregistrant des appels téléphoniques et en vendant les données audio à des entreprises d'intelligence artificielle. Le site internet affirme que les utilisateurs gagnent 30 cents par minute d'appel avec un utilisateur Neon, jusqu'à 30 dollars par jour pour les appels avec des non-utilisateurs, pouvant atteindre plusieurs centaines ou milliers de dollars par an. Cette application, présentée comme un outil pour gagner de l'argent, attire l'attention.

Sep 26, 2025

100

Le merveilleux outil de comptabilité AI ReceiptHero est devenu viral : prendre une photo pour transformer instantanément en facture, une taux de reconnaissance de 95 % rendant la comptabilité manuelle chose du passé

ReceiptHero est un outil de comptabilité basé sur l'IA qui aide les utilisateurs à simplifier la gestion financière. En prenant une photo des factures d'achats avec son téléphone, il identifie automatiquement et trie les données, évitant ainsi le travail fastidieux de saisie manuelle. Il libère le temps des utilisateurs, rendant la gestion financière plus efficace et pratique, idéal pour un mode de vie moderne rapide.

Sep 24, 2025

Alibaba Tongyi lance le Qwen3-ASR-Toolkit pour un nouveau progrès dans la transcription audio et vidéo

L'équipe Qwen d'Ali lance Qwen3-ASR-Toolkit, un outil Python open-source pour transcrire audio/vidéo. Il dépasse la limite de 3 minutes de l'API Qwen3-ASR-Flash, offrant une transcription rapide pour les gros volumes.....

Sep 24, 2025

Alibaba Cloud lance le premier modèle d'IA multimodal complet au monde, Qwen3-Omni, qui permet une gestion uniforme de texte, images, audio et vidéos

Alibaba Cloud a lancé le premier modèle d'IA multimodal natif à l'échelle mondiale, Qwen3-Omni, et l'a rendu open source. Ce modèle prend en charge les entrées multimodales telles que le texte, les images, l'audio et la vidéo, et permet un affichage en flux en temps réel avec une réponse rapide. Grâce au pré-entraînement au texte et à l'entraînement mixte multimodal, Qwen3-Omni dispose d'une forte capacité inter-modale et se distingue dans plusieurs domaines.

Sep 23, 2025

YouTube lance des fonctionnalités importantes comme la génération de vidéos par l'IA, la protection par reconnaissance faciale

YouTube vient d'annoncer une série de fonctionnalités majeures pour les créateurs du monde entier. Lors de l'événement annuel Made on YouTube, la plateforme a présenté une mise à jour globale comprenant l'amélioration des outils Studio, l'augmentation des fonctions de diffusion en direct, les innovations concernant les Shorts et l'élargissement des canaux de monétisation. Les outils Studio ont connu une amélioration importante : la fonction de détection de similarité faciale, testée avec un petit nombre de créateurs l'année dernière, est désormais disponible en phase de test public. Les créateurs peuvent maintenant détecter, gérer et signaler la suppression de tout vidéo utilisant leur visage sans autorisation.

Sep 22, 2025

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

AI Models Finder

LLM Leaderboard

Model Providers

Submit Your Model

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

GEO Services

AI Search Visibility Checker

AI Model Compatibility Checker

AI Dataset Collection

Intelligent Document Recognition

Alibaba lance le nouveau modèle vocal Qwen2-Audio, surpassant OpenAI Whisper

AIbase基地

Cet article provient d'AIbase Daily

Recommandations d'actualités IA connexes

Google lance le modèle de génération vidéo Veo 3.1 : nouvelles fonctionnalités audio et capacité d'édition précise

Mise à jour de Flow, l'outil de génération vidéo d'AI de Google : plus flexible à éditer, fonctions audio puissantes

iOS26.1Beta3 suggère que l'intelligence d'Apple intégrera davantage de modèles d'IA de tiers comme Gemini de Google

Journal de l'IA : RoboNeo de Meitu dépasse le million d'utilisateurs actifs mensuels en son premier mois ; le modèle Gaga AI pour la synchronisation audio-vidéo de qualité cinéma est lancé ; le modèle côté terminal Blue Heart 3B de vivo est dévoilé

La technologie d'IA d'Amazon aide les fans de NBA à découvrir une nouvelle analyse des données

L'application controversée Neon Mobile grimpe à la deuxième position sur l'App Store américain : enregistrer des appels téléphoniques pour les vendre à des entreprises d'intelligence artificielle, le privilège des utilisateurs contre quelques dollars

Le merveilleux outil de comptabilité AI ReceiptHero est devenu viral : prendre une photo pour transformer instantanément en facture, une taux de reconnaissance de 95 % rendant la comptabilité manuelle chose du passé

Alibaba Tongyi lance le Qwen3-ASR-Toolkit pour un nouveau progrès dans la transcription audio et vidéo

Alibaba Cloud lance le premier modèle d'IA multimodal complet au monde, Qwen3-Omni, qui permet une gestion uniforme de texte, images, audio et vidéos

YouTube lance des fonctionnalités importantes comme la génération de vidéos par l'IA, la protection par reconnaissance faciale

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

AI Models Finder

LLM Leaderboard

Model Providers

Submit Your Model

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

GEO Services​

AI Search Visibility Checker

AI Model Compatibility Checker

AI Dataset Collection

Intelligent Document Recognition

Alibaba lance le nouveau modèle vocal Qwen2-Audio, surpassant OpenAI Whisper

AIbase基地

Cet article provient d'AIbase Daily

Recommandations d'actualités IA connexes

Google lance le modèle de génération vidéo Veo 3.1 : nouvelles fonctionnalités audio et capacité d'édition précise

Mise à jour de Flow, l'outil de génération vidéo d'AI de Google : plus flexible à éditer, fonctions audio puissantes

iOS26.1Beta3 suggère que l'intelligence d'Apple intégrera davantage de modèles d'IA de tiers comme Gemini de Google

Journal de l'IA : RoboNeo de Meitu dépasse le million d'utilisateurs actifs mensuels en son premier mois ; le modèle Gaga AI pour la synchronisation audio-vidéo de qualité cinéma est lancé ; le modèle côté terminal Blue Heart 3B de vivo est dévoilé

La technologie d'IA d'Amazon aide les fans de NBA à découvrir une nouvelle analyse des données

L'application controversée Neon Mobile grimpe à la deuxième position sur l'App Store américain : enregistrer des appels téléphoniques pour les vendre à des entreprises d'intelligence artificielle, le privilège des utilisateurs contre quelques dollars

Le merveilleux outil de comptabilité AI ReceiptHero est devenu viral : prendre une photo pour transformer instantanément en facture, une taux de reconnaissance de 95 % rendant la comptabilité manuelle chose du passé

Alibaba Tongyi lance le Qwen3-ASR-Toolkit pour un nouveau progrès dans la transcription audio et vidéo

Alibaba Cloud lance le premier modèle d'IA multimodal complet au monde, Qwen3-Omni, qui permet une gestion uniforme de texte, images, audio et vidéos

YouTube lance des fonctionnalités importantes comme la génération de vidéos par l'IA, la protection par reconnaissance faciale

GEO Services