Le fabricant français de modèles d'intelligence artificielle Mistral, après avoir reçu des critiques de certaines communautés open source suite à la sortie de son dernier modèle fermé-source Medium3, est revenu rapidement sur la voie open source. Récemment, l'entreprise a collaboré avec la startup open source All Hands AI (créatrice d'OpenDevin) pour lancer le tout nouveau modèle linguistique open source Devstral. Ce modèle léger doté de 24 millions de paramètres a été conçu spécifiquement pour le développement de logiciels autonomes, et il dépasse même la performance de nombreux concurrents plus volumineux, y compris certains modèles fermés, dans certaines benchmarks spécifiques.

Contrairement aux modèles traditionnels axés sur la complétion de code ou la génération de fonctions indépendantes, Devstral a été optimisé pour agir comme un agent complet d'ingénierie logicielle. Cela signifie qu'il peut comprendre le contexte à travers plusieurs fichiers, naviguer dans de grandes bases de code et résoudre des problèmes réels liés au développement logiciel. De plus, Devstral est publié sous la licence permissive Apache2.0, permettant aux développeurs et organisations de déployer, modifier et commercialiser librement ce modèle.

Baptiste Rozière, chercheur en intelligence artificielle chez Mistral, a souligné que leur objectif était de fournir à la communauté de développement un outil open source qui puisse être exécuté localement et modifié selon les besoins. La licence Apache2.0 offre une grande liberté aux utilisateurs.

mistral

Un progrès basé sur Codestral

Devstral est le dernier développement de la série Codestral, une collection de modèles centrés sur le code développée par Mistral. Codestral a été lancé pour la première fois en mai 2024, avec 22 milliards de paramètres et une prise en charge de plus de 80 langages de programmation, se distinguant par ses performances exceptionnelles dans la génération et la complétion de code. Son rapide cycle de mise à jour a donné naissance à une version améliorée basée sur l'architecture Mamba, appelée Codestral-Mamba, ainsi que la dernière version Codestral25.01, qui est particulièrement appréciée par les développeurs de plugins IDE et les entreprises. Le succès de la série Codestral a fourni une base solide pour l'avènement de Devstral, permettant une expansion des simples tâches de complétion de code vers des missions d'agent intégral.

Performance impressionnante dans les benchmarks SWE

Dans le benchmark SWE-Bench Verified, Devstral a obtenu un excellent score de 46,8%. SWE-Bench Verified est un ensemble de données contenant 500 vrais problèmes GitHub, validés manuellement pour garantir leur exactitude. Ce résultat ne seulement dépasse tous les modèles open source précédemment publiés, mais aussi plusieurs modèles fermés, dont GPT-4.1-mini, surpassant ces derniers de plus de 20 points de pourcentage.

Rozière s'est félicité du fait que Devstral est actuellement le meilleur modèle open source en termes de benchmarks SWE et d'agents de code, et ce malgré ses seuls 24 millions de paramètres, ce qui lui permet de fonctionner localement sur un MacBook. Sophia Yang, directrice des relations développeurs chez Mistral AI, a également souligné sur les réseaux sociaux que Devstral surpassait de nombreux concurrents fermés dans divers environnements d'évaluation.

La performance exceptionnelle de Devstral est due à l'amélioration et à l'ajustement de sécurité appliqués sur le modèle de base Mistral Small3.1. Rozière explique qu'ils ont d'abord choisi un modèle de base puissant, puis utilisé des techniques spécialisées pour améliorer ses performances sur SWE-Bench.

QQ20250522-085900.png

Non seulement la génération de code, mais aussi la pierre angulaire des agents de développement logiciel AI

Le but de Devstral n'est pas seulement la génération de code, mais surtout son intégration dans des cadres d'agents tels que OpenHands, SWE-Agent et OpenDevin. Ces cadres permettent à Devstral d'interagir avec des cas de test, de naviguer dans les fichiers sources et d'exécuter des tâches multi-étapes à travers des projets. Rozière a révélé que Devstral sera publié conjointement avec OpenDevin, qui fournit un cadre pour les agents de code, servant de backend aux modèles de développeurs.

Pour assurer la fiabilité du modèle, Mistral l'a soumis à des tests rigoureux dans différents dépôts de code et processus internes pour éviter tout surapprentissage du benchmark SWE-Bench. Ils n’ont utilisé que des données provenant de datasets non SWE-Bench pour l'entraînement et ont validé les performances du modèle sur différentes infrastructures.

Déploiement efficace et licence open source business-friendly

L'architecture compacte de Devstral, avec ses 24 millions de paramètres, permet aux développeurs de l'exécuter facilement en local, que ce soit sur une machine équipée d'une seule carte graphique RTX4090 ou sur un Mac avec 32 Go de RAM. Cela est particulièrement attrayant pour les applications mettant l'accent sur la protection de la vie privée et nécessitant un déploiement sur des appareils edge. Rozière a mentionné que les utilisateurs cibles incluent les développeurs et passionnés qui privilégient l'opération locale et la personnalisation, même sans connexion internet.

Outre ses performances et sa portabilité, la licence Apache2.0 de Devstral facilite également les applications commerciales. Cette licence autorise une utilisation illimitée, des adaptations et des distributions, y compris dans des produits propriétaires, ce qui réduit considérablement les obstacles à l'adoption par les entreprises.

Devstral dispose d’une fenêtre de contexte de 128 000 tokens et utilise un tokenizer avec 131 000 mots. Il est compatible avec les principales plateformes open source telles que Hugging Face, Ollama, Kaggle, LM Studio et Unsloth, et fonctionne bien avec des bibliothèques telles que vLLM, Transformers et Mistral Inference.

API et déploiement local double face

Les développeurs peuvent accéder à Devstral via l'API Le Platforme de Mistral, sous le nom de modèle "devstral-small-2505", avec un coût de 0,10 dollar par million de tokens d'entrée et 0,30 dollar par million de tokens de sortie. Pour ceux qui préfèrent le déploiement local, la compatibilité avec des frameworks comme OpenHands permet une intégration immédiate avec des référentiels de code et des flux de travail d'agents. Rozière a partagé comment il utilise Devstral pour des tâches de développement mineures comme la mise à jour des versions de packages ou la modification de scripts de tokenisation, exprimant son admiration pour sa capacité à localiser et modifier précisément le code.

Actuellement disponible en version de préversion pour recherche, Mistral et All Hands AI travaillent déjà sur des modèles suivants plus puissants et plus volumineux. Rozière pense que la différence entre les petits modèles et les grands modèles diminue rapidement, et que des modèles comme Devstral rivalisent déjà avec certains de leurs concurrents plus volumineux.

Grâce à ses excellents benchmarks, sa licence open source permissive et ses fonctionnalités optimisées pour les agents, Devstral n'est pas seulement un outil puissant pour la génération de code, mais constitue également une base clé pour la construction de systèmes autonomes d'ingénierie logicielle.