Das französische KI-Modellhersteller Mistral kehrte nach Kritik aus Teilen der Open-Source-Gemeinschaft an seinem neuesten proprietären Modell Medium3 schnell zur Open-Source-Richtung zurück. Kürzlich schloss die Firma eine Partnerschaft mit der Open-Source-Start-up All Hands AI (Ersteller von OpenDevin) und veröffentlichte das neue Open-Source-Sprachmodell Devstral. Dieses leichte Modell mit 24 Millionen Parametern wurde speziell für die Entwicklung von Agenten-Software konzipiert und übertrifft in bestimmten Benchmarktests sogar viele Competitoren mit Hunderten von Milliarden Parametern, einschließlich einiger proprietärer Modelle.

Im Gegensatz zu traditionellen Sprachmodellen, die sich auf Code-Vervollständigung oder unabhängige Funktionserstellung konzentrieren, wurde Devstral optimiert, um einen vollständigen Software-Ingenieur-Agenten zu spielen. Das bedeutet, dass es den Kontext zwischen Dateien verstehen, große Codebibliotheken durchsuchen und wirkliche Probleme der Softwareentwicklung lösen kann. Noch wichtiger ist, dass Devstral unter der liberalen Apache2.0-Lizenz veröffentlicht wurde, die Entwickler und Organisationen erlaubt, das Modell frei zu bereitstellen, anzupassen und kommerziell zu nutzen.

Baptiste Rozière, Forschungswissenschaftler bei Mistral AI, betonte, dass sie der Entwicklergemeinschaft ein Open-Source-Werkzeug zur Verfügung stellen wollten, das lokal privat laufen und je nach Bedarf angepasst werden kann. Die Apache2.0-Lizenz bietet den Nutzern dabei enorme Freiheiten.

mistral

Basierend auf der erfolgreichen Iteration von Codestral

Devstral ist das jüngste Highlight der Codestral-Reihe von Mistral, einer Serie von Modellen, die sich auf den Code konzentriert. Codestral wurde im Mai 2024 vorgestellt und ist ein professionelles Codierungs-LLM mit 22 Milliarden Parametern, der mehr als 80 Programmiersprachen unterstützt und sich hervorragend in Codegenerierung und Vervollständigung zeigt. Seine schnelle Iteration führte zur Einführung des verbesserten Codestral-Mamba sowie des neuesten Codestral25.01, welches besonders von IDE-Plugins-Entwicklern und Unternehmensnutzern geschätzt wird. Der Erfolg der Codestral-Reihe legte die Grundlage für die Geburt von Devstral, der von einfacher Code-Vervollständigung auf komplexe Agent-Aufgaben erweitert werden konnte.

Bemerkenswertes Ergebnis im SWE-Benchmark

In der SWE-Bench Verified-Benchmarktests erreichte Devstral einen herausragenden Wert von 46,8 %. SWE-Bench Verified ist ein Datensatz mit 500 echten GitHub-Problemen, die durch menschliche Validierung ihre Korrektheit gewährleisten. Dieses Ergebnis führt alle zuvor veröffentlichten Open-Source-Modelle und übertreffen sogar mehrere proprietäre Modelle, darunter GPT-4.1-mini, um mehr als 20 Prozentpunkte.

Rozière zeigte Stolz darauf, dass Devstral bislang das beste Open-Source-Modell im SWE-bench-Validierungs- und Code-Agenten-Benchmark darstellt und überraschenderweise nur 24 Millionen Parameter hat, sodass es sogar auf einem MacBook lokal ausgeführt werden kann. Sophia Yang, Doktorandin bei Mistral AI und Leiterin der Entwicklerbeziehungen, betonte ebenfalls in sozialen Medien, dass Devstral in verschiedenen Frameworks den Großteil der proprietären Alternativen übertrifft.

Die herausragende Leistung von Devstral verdankt sich der verstärkten Lernen und Sicherheitsjustierung der Mistral Small3.1-Basismodelle. Rozière erklärte, dass sie zunächst ein starkes Basismodell auswählten und dann spezielle Techniken einsetzten, um dessen Leistung im SWE-bench zu steigern.

QQ20250522-085900.png

Nicht nur Codegenerierung, sondern auch der Schlüssel für AI-Softwareentwicklungsagenten

Die Hauptziele von Devstral sind nicht nur Codegenerierung, sondern auch Integration in Agent-Frameworks wie OpenHands, SWE-Agent und OpenDevin. Diese Frameworks ermöglichen es Devstral, mit Testfällen zu interagieren, Quelldateien zu navigieren und mehrstufige Aufgaben innerhalb eines Projekts auszuführen. Rozière gab an, dass Devstral gemeinsam mit OpenDevin veröffentlicht werden wird, welches dem Code-Agenten einen Rahmen bietet und den Hintergrund für entwicklerbezogene Modelle darstellt.

Zur Gewährleistung der Zuverlässigkeit wurde Devstral in verschiedenen Codebibliotheken und internen Arbeitsabläufen streng getestet, um Überanpassungen am SWE-bench-Benchmark zu vermeiden. Sie nutzten ausschließlich Daten außerhalb des SWE-bench-Datensatzes für die Ausbildung und validierten die Performance des Modells in verschiedenen Frameworks.

Effizientes Deployment und kommersiell freundliche Open-Source-Lizenz

Die kompakte Architektur mit 24 Millionen Parametern von Devstral ermöglicht es Entwicklern, lokal leicht zu deployen, sei es auf Maschinen mit einem einzigen RTX4090-GPU oder auf Macs mit 32 GB RAM. Dies macht es für Anwendungen mit hoher Privatsphäre und lokaler Bereitstellung auf Edge-Geräten sehr attraktiv. Rozière sagte, dass das Zielgruppenprofil umfasse entusiastische Entwickler und Nutzer, die sich auf lokale und private Operationen konzentrieren, sogar ohne Internetverbindung.

Zusätzlich zur Leistung und Portabilität bietet die Apache2.0-Lizenz von Devstral auch Unternehmen große Vorteile. Diese Lizenz erlaubt uneingeschränkte Nutzung, Anpassung und Verbreitung, einschließlich in proprietären Produkten, was die Einschaltung der Unternehmen deutlich vereinfacht.

Devstral hat ein Kontextfenster von 128.000 Tokens und verwendet einen Iron Fist Tokenizer mit 131.000 Wörtern. Es ist mit den gängigen Open-Source-Plattformen Hugging Face, Ollama, Kaggle, LM Studio und Unsloth kompatibel und funktioniert gut mit Bibliotheken wie vLLM, Transformers und Mistral Inference.

API und lokales Deployment kombiniert

Entwickler können Devstral über Mistral's Le Platforme API abrufen, wobei der Modellname "devstral-small-2505" lautet und die Preise pro Million Input-Tokens 0,10 USD und pro Million Output-Tokens 0,30 USD betragen. Für Nutzer, die lokal deployen möchten, ist die Unterstützung von OpenHands-Frameworks ideal, um sofortige Integration mit Codebibliotheken und Agenten-Arbeitsabläufen zu ermöglichen. Rozière teilte mit, wie er Devstral selbst für kleine Entwicklertätigkeiten wie das Aktualisieren von Paketversionen oder das Ändern von Tokenisierungsskripten verwendet und warnte vor der Genauigkeit und Flexibilität im Code.

Obwohl Devstral derzeit als Forschungs-Preview-Version veröffentlicht wurde, arbeiten Mistral und All Hands AI bereits an weiteren, leistungsstärkeren und größeren Nachfolgemodellen. Rozière glaubt, dass der Unterschied zwischen kleinen und großen Modellen schnell schwindet und dass Modelle wie Devstral bereits einige ihrer größeren Konkurrenten übertrifft.

Mit seiner herausragenden Benchmarkleistung, der liberalen Open-Source-Lizenz und der Optimierung für die Entwicklung von Agenten ist Devstral nicht nur ein mächtiges Werkzeug für Codegenerierung, sondern auch die zentrale Basis für die Entwicklung autonomer Software-Ingenieur-Systeme.