Récemment, Alibaba a lancé son nouveau modèle linguistique open source Qwen2-Audio, basé sur son prédécesseur Qwen-Audio. Ce modèle excelle non seulement dans la reconnaissance vocale, la traduction et l'analyse audio, mais il affiche également des améliorations significatives en termes de fonctionnalités et de performances. Qwen2-Audio est disponible en version de base et en version affinée par instructions. Les utilisateurs peuvent poser des questions au modèle vocalement et identifier et analyser le contenu.
Par exemple, si un utilisateur demande au modèle d'analyser la voix d'une femme, Qwen2-Audio peut estimer son âge ou analyser ses émotions. S'il s'agit d'un son bruyant, le modèle peut identifier les différentes composantes sonores. Qwen2-Audio prend en charge plusieurs langues, dont le chinois, le cantonais, le français, l'anglais et le japonais, ce qui facilite grandement le développement d'applications d'analyse des sentiments et de traduction.
Accès au produit : https://top.aibase.com/tool/qwen2-audio
Comparé à la première génération, Qwen-Audio, Qwen2-Audio a bénéficié d'une optimisation complète de son architecture et de ses performances. Lors de la phase de pré-entraînement, ce nouveau modèle a utilisé des invites linguistiques plus naturelles, remplaçant les étiquettes hiérarchiques complexes précédentes. Cette amélioration permet au modèle de mieux comprendre et de répondre aux différentes tâches, améliorant ainsi considérablement ses capacités de généralisation.
La capacité de Qwen2-Audio à suivre les instructions a également été considérablement améliorée, lui permettant de comprendre les instructions des utilisateurs avec plus de précision. Par exemple, lorsqu'un utilisateur donne l'instruction « analyser la tendance émotionnelle de cet audio », Qwen2-Audio peut identifier précisément les émotions contenues dans l'audio. De plus, ce modèle intègre deux modes : conversation vocale et analyse audio, rendant l'interaction vocale plus naturelle pour l'utilisateur. En mode analyse audio, Qwen2-Audio peut analyser en profondeur divers types d'audio et fournir des résultats d'analyse détaillés et précis.
Pour garantir que la sortie du modèle corresponde aux attentes humaines, Qwen2-Audio a également intégré des techniques de pointe telles que l'ajustement fin supervisé et l'optimisation des préférences directes. Lors de l'interaction avec les humains, le modèle apparaît plus naturel et précis.
En termes de tests de performance, Qwen2-Audio a obtenu d'excellents résultats dans plusieurs tests de référence, surpassant notamment Whisper-large-v3 d'OpenAI en termes de précision de la reconnaissance vocale et de la traduction. Les performances de ce nouveau modèle ont non seulement suscité un large intérêt dans l'industrie, mais elles présagent également un nouvel avenir pour les technologies vocales.
Points clés :
🌟 Qwen2-Audio est le dernier modèle linguistique open source d'Alibaba, prenant en charge plusieurs langues et offrant de puissantes capacités de reconnaissance et d'analyse.
🚀 Par rapport à la génération précédente, Qwen2-Audio a été considérablement optimisé en termes de performances et d'architecture, améliorant ainsi sa capacité de compréhension et de réponse.
🏆 Lors de nombreux tests de performance, Qwen2-Audio a surpassé Whisper d'OpenAI, démontrant une forte compétitivité.