Le 23 juillet, Alibaba Cloud a officiellement annoncé le lancement complet de son nouveau modèle d'intelligence artificielle de programmation Qwen3-Coder, qui est désormais entièrement open source. Cette initiative a rapidement suscité un engouement dans le domaine de la programmation intelligente. Grâce à ses capacités exceptionnelles de génération de code et d'Agent, Qwen3-Coder atteint des niveaux élevés parmi les modèles open source pour les tâches de codage fondamentales ainsi que pour la programmation agente et l'utilisation du navigateur agente, marquant ainsi une nouvelle étape dans les technologies de programmation intelligente.
La série de modèles Qwen3-Coder propose plusieurs tailles différentes. La version la plus puissante, Qwen3-Coder-480B-A35B-Instruct, est actuellement ouverte au public. Ce modèle utilise une architecture MoE avancée, avec 480 milliards de paramètres, 35 milliards de paramètres activés, et prend nativement en charge un contexte de 256K, pouvant être étendu jusqu'à une longueur de 1 million grâce à la technologie YaRN, offrant ainsi un soutien puissant pour traiter de grands dépôts de code et des données dynamiques.
Durant la phase de pré-entraînement, l'équipe Tongyi a amélioré significativement les capacités de programmation de Qwen3-Coder grâce à une stratégie d'expansion multidimensionnelle. En termes de données, 70 % des 7,5 téraoctets de données d'entraînement sont composés de code, ce qui assure au modèle une excellente capacité de programmation tout en maintenant des compétences générales et mathématiques. Concernant l'extension du contexte, le modèle dispose d'une capacité native à gérer un long contexte, optimisée spécifiquement pour les codes de dépôts et les données dynamiques, augmentant ainsi considérablement l'efficacité et la précision de la programmation agente. De plus, grâce à la technologie d'extension des données synthétiques, l'équipe a nettoyé et réécrit des données de faible qualité à l'aide de Qwen2.5-Coder, améliorant ainsi la qualité globale des données.
Pendant la phase d'entraînement postérieur, l'équipe Tongyi a adopté de manière innovante une stratégie d'apprentissage par renforcement à grande échelle pilotée par l'exécution, générant ainsi un grand nombre d'exemples d'entraînement de haute qualité grâce à la construction automatique d'exemples de tests. Cette stratégie a non seulement amélioré significativement le taux de succès d'exécution du code, mais a également eu un impact positif sur d'autres tâches. En particulier dans les tâches de génie logiciel du monde réel, comme SWE-Bench, Qwen3-Coder a démontré une excellente capacité d'autoplanification, d'appel d'outils et de prise de décision, réalisant ainsi les meilleurs résultats parmi les modèles open source sur SWE-bench Verified.
Pour faciliter l'utilisation par les développeurs, l'équipe Tongyi a également rendu disponible le programme en ligne de commande Qwen Code, qui offre un analyseur et des outils renforcés pour la série de modèles Qwen3-Coder, permettant aux développeurs d'exploiter pleinement le potentiel du modèle en matière de programmation agent. En outre, l'API de Qwen3-Coder peut être utilisée conjointement avec d'autres outils de programmation performants tels que Claude Code et Cline, offrant ainsi aux développeurs une expérience de programmation plus flexible et efficace.
Aujourd'hui, Qwen3-Coder est totalement open source sur des plateformes comme le communautaire ModelScope et HuggingFace, et les développeurs du monde entier peuvent le télécharger gratuitement. De plus, ce modèle sera bientôt intégré aux produits d'IA de programmation d'Alibaba, Tongyi Lingma, élargissant ainsi ses scénarios d'application. La plateforme Alibaba Cloud BaiLian a également lancé l'API de Qwen3-Coder, offrant aux développeurs une méthode plus pratique d'accès.
Communauté ModelScope : https://modelscope.cn/models/Qwen/Qwen3-Coder-480B-A35B-Instruct
Hugging Face : https://huggingface.co/Qwen/Qwen3-235B-A22B-Instruct-2507
GitHub de Qwen Code : https://github.com/QwenLM/qwen-code