フランスの人工知能モデルメーカーである Mistral は、最新のクローズドソースモデルである Medium3 が一部のオープンソースコミュニティから批判を受けた後、急速にオープンソース路線に戻りました。この会社は最近、オープンソースのスタートアップである All Hands AI(OpenDevin の作成者)と協力し、新しいオープンソース言語モデル Devstral を発表しました。このパラメータ数2400万の軽量なモデルは、エージェント型AIソフトウェアの開発に特化されており、いくつかのパラメータが数十億規模の競合製品(一部のクローズドソースモデルを含む)よりも特定のベンチマークテストで優れたパフォーマンスを示しています。

従来のコード補完や独立した関数生成に重点を置いていた一般的なLLMとは異なり、Devstral は完全なソフトウェアエンジニアリングエージェントとして最適化されています。これにより、ファイル間のコンテキストを理解し、大規模なコードベースを閲覧し、実際のソフトウェア開発問題を解決することが可能になります。さらに重要なのは、Devstral はApache2.0ライセンスに基づいて公開されており、開発者や組織が自由にこのモデルを展開、修正、商業化できる点です。

Mistral AI の研究科学者である Baptiste Rozière は、「開発者コミュニティにローカルで動作し、必要に応じてカスタマイズ可能なオープンソースツールを提供したい」と述べています。Apache2.0ライセンスはユーザーに非常に大きな自由を与えるものであり、この点も評価されています。

mistral

Codestral からの成功的な進化

Devstral は、コード中心のモデルシリーズ Codestral の最新の進化です。Codestral は2024年5月に初めて登場し、220億のパラメータを持ち、80以上のプログラミング言語に対応する専門的なコーディングLLMであり、コード生成や補完タスクで優れたパフォーマンスを示しました。その迅速なイテレーションは、Mambaアーキテクチャに基づく強化版Codestral-Mambaや、特にIDEプラグイン開発者や企業ユーザーに人気のある最新版Codestral25.01を生み出しました。Codestralシリーズの成功は、Devstralが単なるコード補完から完全なエージェントタスクの実行へと拡張することを可能にしました。

SWEベンチマークでの驚異的なパフォーマンス

SWE-Bench Verified ベンチマークテストでは、Devstral は46.8%という優れたスコアを達成しました。SWE-Bench Verified は、500個のリアルなGitHub問題から構成され、正確性を確保するために人間による検証が行われたデータセットです。この結果は、これまで公開されたすべてのオープンソースモデルを上回り、GPT-4.1-miniを含むいくつかのクローズドソースモデルをも凌駕しており、差は20ポイント以上あります。

Rozière は「Devstral はこれまでで最も優れたオープンソースモデルであり、SWE-benchの検証とコードエージェントの面で最高のパフォーマンスを示している」と誇らしげに述べました。また、驚くべきことに、2400万パラメータしかないにもかかわらず、MacBookでもローカルで動作することが可能です。Mistral AI の開発者関係責任者のSophia Yang博士も、ソーシャルメディアでDevstralがさまざまなフレームワークで多くのクローズドソース代替案を上回ったことを指摘しています。

Devstral の卓越したパフォーマンスは、Mistral Small3.1ベースモデルに対する強化学習とセキュリティ調整技術によるものです。Rozière は、「まず強力なベースモデルを選択し、その後、そのSWE-bench上のパフォーマンスを向上させるための専門技術を利用した」と説明しました。

QQ20250522-085900.png

コード生成を超えて、AIソフトウェア開発エージェントの基盤となる

Devstral の目標は単にコード生成を行うことではなく、OpenHands、SWE-Agent、OpenDevinなどのエージェントフレームワークに統合できることです。これらのフレームワークは、Devstral がテストケースとインタラクトしたり、ソースコードファイルをナビゲートしたり、プロジェクト全体でマルチステップタスクを実行したりすることを可能にします。Rozière は、Devstral がOpenDevinと共にリリースされることを明らかにし、後者はコードエージェント向けのフレームワークを提供し、開発者モデルのバックエンドとして機能すると述べました。

モデルの信頼性を確保するために、Mistral は異なるコードベースや社内ワークフローでDevstralを厳格にテストし、SWE-benchベンチマークに過剰適合しないように注意を払っています。彼らは、SWE-bench以外のデータセットを使用してトレーニングを行い、さまざまなフレームワーク上でモデルのパフォーマンスを確認しました。

効率的な展開とビジネスフレンドリーなオープンソースライセンス

Devstralのコンパクトな2400万パラメータ構造により、開発者はローカル環境で簡単に実行できます。RTX4090 GPUを搭載したマシンや、32GBのRAMを持つMacでも動作します。これはプライバシー保護を重視し、エッジデバイス上で展開する必要があるアプリケーションにとって非常に魅力的です。Rozière は、このモデルの主なターゲットユーザとして、プライベートオペレーションに熱心な開発者や愛好家を挙げており、インターネットがない環境でも利用できると述べています。

パフォーマンスとポータビリティだけでなく、DevstralのApache2.0ライセンスもビジネス適用に大きな利便性をもたらします。このライセンスは無制限の使用、改変、配布を許可しており、 propriety製品内での使用も認められています。これにより、企業が採用する障壁を大幅に低減します。

Devstralは128,000トークンのコンテキストウィンドウを持ち、131,000語彙の鉄拳トークナイザーを使用しています。Hugging Face、Ollama、Kaggle、LM Studio、Unslothなどの主要なオープンソースプラットフォームで展開可能であり、vLLM、Transformers、Mistral Inferenceなどのライブラリとも良好に互換性があります。

APIとローカル展開の両輪

開発者はMistralのLe Platforme APIを通じてDevstralにアクセスでき、モデル名はdevstral-small-2505で、1百万入力トークンごとに0.10ドル、1百万出力トークンごとに0.30ドルの料金がかかります。ローカル環境で展開したいユーザーには、OpenHandsなどのフレームワークへの対応が既に整っており、コードベースやエージェントワークフローとの即時統合が可能です。Rozièreは、自身がDevstralを利用してソフトウェアパッケージのバージョン更新やトークナイザースクリプトの修正といった小さな開発タスクを完了した例を挙げ、コード内の正確な位置特定と修正能力に感銘を受けていると述べました。

現在、Devstralは研究プレビュー版としてリリースされていますが、MistralとAll Hands AIはさらに強力で規模の大きな後続モデルの開発に取り組んでいます。Rozièreは、「小型モデルと大型モデルのギャップが急速に縮小しており、Devstralのようなモデルが一部の大規模な競合製品と肩を並べられるようになっている」と述べています。

その卓越したパフォーマンスベンチマーク、緩やかなオープンソースライセンス、エージェント設計最適化された特性により、Devstralは単なる強力なコード生成ツールではなく、自律型ソフトウェアエンジニアリングシステムの重要な基礎モデルとなるでしょう。