Au cours de la nuit dernière, l'équipe d'Alibaba Tongyi Qianwen a publié la série de modèles open source Qwen2. Cette série comprend cinq modèles de pré-entraînement et d'ajustement d'instructions de différentes tailles : Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B et Qwen2-72B. Les informations clés montrent une amélioration significative du nombre de paramètres et des performances par rapport à la génération précédente, Qwen1.5.

Pour les capacités multilingues des modèles, la série Qwen2 a bénéficié d'un investissement important pour augmenter la quantité et la qualité des ensembles de données, couvrant 27 autres langues en plus de l'anglais et du chinois. Les tests comparatifs montrent que les grands modèles (70 B+ paramètres) excellent dans la compréhension du langage naturel, le codage et les capacités mathématiques. Le modèle Qwen2-72B surpasse même la génération précédente en termes de performances et de nombre de paramètres.

Le modèle Qwen2 a non seulement démontré de puissantes capacités dans l'évaluation des modèles linguistiques de base, mais a également obtenu des résultats remarquables dans l'évaluation des modèles ajustés aux instructions. Ses capacités multilingues se sont distinguées dans les tests de référence M-MMLU et MGSM, démontrant le fort potentiel des modèles Qwen2 ajustés aux instructions.

La publication de la série de modèles Qwen2 marque un nouveau sommet dans la technologie de l'intelligence artificielle, ouvrant des possibilités plus vastes pour les applications et la commercialisation de l'IA à l'échelle mondiale. À l'avenir, Qwen2 étendra davantage l'échelle des modèles et les capacités multimodales, accélérant ainsi le développement du domaine de l'IA open source.

Informations sur les modèles

La série Qwen2 comprend 5 modèles de base et d'ajustement d'instructions de différentes tailles : Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B et Qwen2-72B. Le tableau ci-dessous détaille les informations clés de chaque modèle :

ModèleQwen2-0.5BQwen2-1.5BQwen2-7BQwen2-57B-A14BQwen2-72B
# Paramètres49 millions154 millions7,07 milliards57,41 milliards72,71 milliards
# Paramètres non Emb35 millions1,31 milliard598 millions56,32 milliards70,21 milliards
Liaison des embeddingsVraiVraiFauxFauxFaux
Longueur du contexte32 00032 000128 00064 000128 000
Assurance QualitéOuiOuiOuiOuiOui

Plus précisément, dans Qwen1.5, seuls Qwen1.5-32B et Qwen1.5-110B utilisaient Group Query Attention (GQA). Cette fois, nous avons appliqué GQA à toutes les tailles de modèles afin qu'ils bénéficient d'une vitesse d'inférence plus rapide et d'une consommation de mémoire réduite. Pour les petits modèles, nous préférons utiliser la liaison des embeddings car les grands embeddings clairsemés représentent une part importante du nombre total de paramètres du modèle.

Concernant la longueur du contexte, tous les modèles linguistiques de base ont été pré-entraînés sur des données avec une longueur de contexte de 32 000 jetons. Nous avons observé une capacité d'extrapolation satisfaisante jusqu'à 128 000 jetons dans l'évaluation PPL. Cependant, pour les modèles ajustés aux instructions, nous ne nous contentons pas de l'évaluation PPL ; nous avons besoin que les modèles comprennent correctement les longs contextes et accomplissent les tâches. Le tableau indique les capacités de longueur de contexte des modèles ajustés aux instructions, évaluées à l'aide de la tâche Needle in a Haystack. Il est à noter que, lorsqu'ils sont améliorés avec YARN, les modèles Qwen2-7B-Instruct et Qwen2-72B-Instruct montrent des capacités impressionnantes à gérer des longueurs de contexte jusqu'à 128 000 jetons.

Nous avons déployé des efforts considérables pour augmenter la quantité et la qualité des ensembles de données de pré-entraînement et d'ajustement des instructions, couvrant de nombreuses langues autres que l'anglais et le chinois, afin d'améliorer leurs capacités multilingues. Bien que les grands modèles linguistiques aient une capacité inhérente à se généraliser à d'autres langues, nous soulignons explicitement l'inclusion de 27 autres langues dans notre entraînement :

RégionLangues
Europe occidentaleAllemand, français, espagnol, portugais, italien, néerlandais
Europe orientale et centraleRusse, tchèque, polonais
Moyen-OrientArabe, persan, hébreu, turc
Asie de l'EstJaponais, coréen
Asie du Sud-EstVietnamien, thaï, indonésien, malais, lao, birman, cebuano, khmer, tagalog
Asie du SudHindi, bengali, ourdou

De plus, nous avons consacré beaucoup d'efforts à résoudre les problèmes de traduction de code souvent rencontrés dans l'évaluation multilingue. Par conséquent, la capacité de nos modèles à gérer ce phénomène s'est considérablement améliorée. Des évaluations menées avec des invites qui provoquent généralement des traductions de code interlinguistiques confirment une réduction significative des problèmes associés.

Performances

Les résultats des tests comparatifs montrent une amélioration significative des performances des grands modèles (70 B+ paramètres) par rapport à Qwen1.5. Ces tests se concentrent sur le grand modèle Qwen2-72B. Pour les modèles linguistiques de base, nous avons comparé Qwen2-72B aux meilleurs modèles open source actuels en termes de compréhension du langage naturel, d'acquisition de connaissances, de capacités de programmation, de capacités mathématiques et de capacités multilingues. Grâce à des ensembles de données soigneusement sélectionnés et à des méthodes d'entraînement optimisées, Qwen2-72B surpasse des modèles de pointe tels que Llama-3-70B, et ses performances dépassent même celles de la génération précédente, Qwen1.5-110B, malgré un nombre de paramètres inférieur.

Après un entraînement massif à grande échelle, nous avons effectué un entraînement postérieur pour améliorer encore l'intelligence de Qwen et le rapprocher de l'intelligence humaine. Ce processus améliore encore les capacités du modèle dans les domaines du codage, des mathématiques, du raisonnement, du suivi des instructions et de la compréhension multilingue. De plus, il aligne la sortie du modèle sur les valeurs humaines, garantissant qu'il est utile, honnête et inoffensif. Notre phase d'entraînement postérieur est conçue selon les principes d'un entraînement évolutif et d'annotations humaines minimales. Plus précisément, nous étudions comment obtenir des données de démonstration et des données de préférence de haute qualité, fiables, diversifiées et créatives grâce à diverses stratégies d'alignement automatique, telles que l'échantillonnage de rejet pour les mathématiques, les retours d'exécution pour le codage et le suivi des instructions, la traduction inversée pour l'écriture créative, la supervision évolutive pour les jeux de rôle, etc. Pour l'entraînement, nous avons utilisé une combinaison d'ajustement supervisé, d'entraînement de modèle de récompense et d'entraînement DPO en ligne. Nous avons également utilisé un nouvel optimiseur d'intégration en ligne pour minimiser l'impôt d'alignement. Ces efforts combinés ont considérablement amélioré les capacités et l'intelligence de notre modèle, comme indiqué dans le tableau ci-dessous.

Nous avons mené une évaluation complète de Qwen2-72B-Instruct, couvrant 16 tests de référence dans divers domaines. Qwen2-72B-Instruct trouve un équilibre entre l'amélioration des capacités et l'alignement sur les valeurs humaines. Plus précisément, Qwen2-72B-Instruct surpasse nettement Qwen1.5-72B-Chat sur tous les tests de référence et atteint des performances compétitives par rapport à Llama-3-70B-Instruct.

Pour les modèles plus petits, nos modèles Qwen2 surpassent également les modèles SOTA de taille similaire ou même supérieure. Comparé aux modèles SOTA récemment publiés, Qwen2-7B-Instruct conserve un avantage sur divers tests de référence, excellant particulièrement dans le codage et les indicateurs liés au chinois.

Points forts

Codage et mathématiques

Nous nous sommes constamment efforcés d'améliorer les fonctionnalités avancées de Qwen, notamment en codage et en mathématiques. En codage, nous avons réussi à intégrer l'expérience et les données d'entraînement de code de CodeQwen1.5, ce qui a permis à Qwen2-72B-Instruct de réaliser des améliorations significatives dans diverses langues de programmation. En mathématiques, grâce à l'utilisation d'ensembles de données vastes et de haute qualité, Qwen2-72B-Instruct a démontré une capacité accrue à résoudre des problèmes mathématiques.

Compréhension de longs contextes

Dans Qwen2, tous les modèles ajustés aux instructions ont été entraînés sur des contextes de 32 000 jetons et extrapolés à des longueurs de contexte plus longues à l'aide de techniques telles que YARN ou Dual Chunk Attention.

L'illustration ci-dessous présente les résultats de nos tests sur Needle in a Haystack. Il est à noter que Qwen2-72B-Instruct est capable de gérer parfaitement les tâches d'extraction d'informations dans des contextes de 128 000 jetons. Couplé à ses performances intrinsèquement élevées, il devient le choix privilégié pour le traitement des tâches sur de longs textes lorsque les ressources sont disponibles.

De plus, il convient de noter les capacités impressionnantes des autres modèles de la série : Qwen2-7B-Instruct gère presque parfaitement des contextes jusqu'à 128 000 jetons, Qwen2-57B-A14B-Instruct gère des contextes jusqu'à 64 000 jetons, tandis que les deux plus petits modèles de la série prennent en charge des contextes de 32 000 jetons.

Au-delà des modèles à long contexte, nous publions également une solution proxy pour le traitement efficace de documents contenant jusqu'à 1 000 000 de jetons. Pour plus de détails, consultez notre article de blog dédié à ce sujet.

Sécurité et responsabilité

Le tableau ci-dessous montre le pourcentage de réponses nuisibles générées par les grands modèles pour quatre catégories de requêtes multilingues non sécurisées (activités illégales, fraude, contenu pornographique, violence liée à la vie privée). Les données de test proviennent de Jailbreak et ont été traduites dans plusieurs langues pour l'évaluation. Nous avons constaté que Llama-3 ne pouvait pas gérer efficacement les invites multilingues, il n'a donc pas été inclus dans la comparaison. Selon le test de signification (P_value), les performances du modèle Qwen2-72B-Instruct en matière de sécurité sont comparables à celles de GPT-4 et sont significativement meilleures que celles du modèle Mistral-8x22B.

Cet article provient d'AIbase Daily

Bienvenue dans la section [AI Quotidien] ! Voici votre guide pour explorer le monde de l'intelligence artificielle chaque jour. Chaque jour, nous vous présentons les points forts du domaine de l'IA, en mettant l'accent sur les développeurs, en vous aidant à comprendre les tendances technologiques et à découvrir des applications de produits IA innovantes.

—— Créé par le groupe AIbase Daily
© Tous droits réservés AIbase基地 2024, cliquez pour voir la source -

Recommandations d'actualités IA connexes

Le modèle de densité Pangu 7B et le modèle d'expert mixte Pangu 72B en open source chez Huawei

Le modèle de densité Pangu 7B et le modèle d'expert mixte Pangu 72B en open source chez Huawei

Le 30 juin, Huawei a officiellement annoncé le lancement en open source du modèle dense Pangu avec 7 milliards de paramètres, du modèle d'expert mixte PanguPro MoE avec 72 milliards de paramètres, ainsi que des technologies de raisonnement de modèles basées sur Ascend. Cette initiative d'open source constitue une étape clé dans la stratégie écologique Ascend de Huawei, visant à promouvoir la recherche et l'innovation technologique des grands modèles, à accélérer l'application de l'intelligence artificielle dans divers secteurs et à créer de la valeur.

Jun 30, 2025
0
阿里云 lance plusieurs produits IA en Europe

阿里云 lance plusieurs produits IA en Europe

Jun 18, 2025
20
Nouvelle étoile open source Kimi-Dev-72B : L'outil divin IA qui repousse les limites de la réparation du code

Nouvelle étoile open source Kimi-Dev-72B : L'outil divin IA qui repousse les limites de la réparation du code

Jun 17, 2025
0
Journal quotidien sur l'IA : MiniMax-M1 est open source ; Moonshot publie un nouveau modèle appelé Kimi-Dev-72B ; La version mise à jour de Qwen3 d'Alibaba est compatible avec l'architecture MLX d'Apple

Journal quotidien sur l'IA : MiniMax-M1 est open source ; Moonshot publie un nouveau modèle appelé Kimi-Dev-72B ; La version mise à jour de Qwen3 d'Alibaba est compatible avec l'architecture MLX d'Apple

Jun 17, 2025
10
Sortie du modèle open source Kimi-Dev-72B, révolutionnant les records des benchmarks de programmation

Sortie du modèle open source Kimi-Dev-72B, révolutionnant les records des benchmarks de programmation

Jun 17, 2025
0
Kimi-Dev-72B : un modèle LLM de codage open source pour résoudre les problèmes d'ingénierie logicielle

Kimi-Dev-72B : un modèle LLM de codage open source pour résoudre les problèmes d'ingénierie logicielle

Jun 17, 2025
0
Xiaohongshu frappe fort ! Le tout nouveau modèle LLM开源 dots.llm1 fait son entrée avec 142 milliards de paramètres !

Xiaohongshu frappe fort ! Le tout nouveau modèle LLM开源 dots.llm1 fait son entrée avec 142 milliards de paramètres !

Jun 10, 2025
60
L'Agent AI高考通 de QQ Browser est le premier dans l'industrie

L'Agent AI高考通 de QQ Browser est le premier dans l'industrie

QQ Browser a officiellement lancé l'Agent AI高考通, un puissant assistant pour les élèves de terminale. Cet outil innovant vise à soutenir tout le processus des examens universitaires grâce à la technologie IA, offrant des informations exhaustives et autorisées sur les examens nationaux tout en personnalisant les conseils pour la sélection des options d'études supérieures. L'Agent AI高考通 peut non seulement aider les étudiants à ouvrir leurs idées pour la résolution de problèmes et l'écriture via l'aide à la résolution de problèmes par l'IA et l'assistance à la rédaction d'essais, mais il peut également répondre rapidement aux questions pendant les examens, comme quoi faire si vous oubliez votre carte d'examen?

May 23, 2025
20
Nouveau modèle de问答 audio Omni-R1 : Utiliser l'apprentissage par renforcement piloté par du texte et des données générées automatiquement pour avancer dans le问答 audio

Nouveau modèle de问答 audio Omni-R1 : Utiliser l'apprentissage par renforcement piloté par du texte et des données générées automatiquement pour avancer dans le问答 audio

May 20, 2025
40
Expérience de mode AI sur Google Search : explorez une nouvelle expérience de问答 intelligente

Expérience de mode AI sur Google Search : explorez une nouvelle expérience de问答 intelligente

May 19, 2025
60
LangueActivités illégalesFraudeContenu pornographiqueViolence liée à la vie privée
GPT-4Mistral-8x22BQwen2-72B-InstructGPT-4Mistral-8x22BQwen2-72B-InstructGPT-4Mistral-8x22BQwen2-72B-InstructGPT-4Mistral-8x22BQwen2-72B-Instruct
Chinois0 %13 %0 %0 %17 %0 %43 %47 %53 %0 %10 %0 %
Anglais0 %7 %0 %0 %23 %0 %37 %67 %63 %0 %27 %3 %
Arabe0 %13 %0 %0 %7 %0 %15 %26 %15 %3 %13 %0 %
Espagnol0 %7 %0 %3 %0 %0 %48 %64 %50 %3 %7 %3 %
Français0 %3 %0 %3 %3 %7 %3 %19 %7 %0 %27 %0 %
Coréen0 %4 %0 %3 %8 %4 %17 %29 %10 %0 %26 %4 %
Portugais0 %7 %0 %3 %7 %3 %47 %57 %47 %4 %26 %4 %
Japonais0 %10 %0 %7 %23 %3 %13 %17 %10 %13 %7 %7 %
Vietnamien0 %4 %0 %4 %11 %0 %22 %26 %22 %0 %0 %0 %
Moyenne0 %8 %0 %3 %11 %2 %27 %39 %31 %3 %16 %2 %