AIベンチマークに「Claude Kayak」が一時掲載され即時削除。Anthropicの新型旗艦モデルClaude Opus4.5と推測され、複雑な推論・多段階タスク・コード生成で大幅進化が期待される。SWE-benchで80%超のスコアを目指し、GPT-5.1やGemini3に対抗。....
OpenAIがGPT-5.1-Codex-Maxを発表。複雑なソフトウェアエンジニアリング向けに最適化され、数十万行のコードコンテキストを生成可能。動的圧縮メカニズムで長期セッションの情報損失を軽減。SWE-bench精度77.9%、エンジニアタスク79.9%を達成。トークン消費12%削減、安全性検出スコア0.920に向上。....
バイトダンスはDoubao-Seed-Codeプログラミングモデルをリリースし、パフォーマンス、価格、移行コストにおいて大きな進展を遂げました。このモデルはClaude APIと互換性があり、効率的なコード生成能力を持ち、ウェブ開発を簡素化します。TRAE開発環境と深く統合されているため、より早いスピードと高い精度でプログラミングの問題を解決でき、SWE-Benchでの検証でも優れた性能を示しました。
火山引擎が豆包プログラミングモデルをリリース。Agenticプログラミングに最適化され、SWE-Bench-VerifiedランキングでSOTA記録を更新。初月サブスクリプションは9.9円で、開発者にコスパの高いAIプログラミングツールを提供。....
AIモデルのソフトウェアエンジニアリング能力評価ツール
anthropic
$108
入力トークン/百万
$540
出力トークン/百万
200k
コンテキスト長
minimax
-
1M
$21.6
mistral
$2.88
$14.4
256k
$0.72
$2.16
Kwaipilot
KAT-Dev-72B-Expは、ソフトウェアエンジニアリングタスクに使用される720億パラメータのオープンソース大規模言語モデルで、SWE-Bench Verifiedベンチマークテストで74.6%の正解率を達成し、KAT-Coderモデルの実験的な強化学習バージョンです。
SWE-bench
SWE-agent-LM-7Bは、ソフトウェアエンジニアリング分野向けに特別に設計されたオープンソースの言語モデルで、Qwen2.5-Coder-7B-Instructをベースに微調整して訓練されています。このモデルは、ソフトウェアエンジニアリング関連の問題を効果的に解決し、開発者にインテリジェントなサポートを提供し、重要な実用的価値を持っています。
unsloth
Devstral 1.1は、Mistral AIとAll Hands AIが共同開発したスマート大規模言語モデルで、ソフトウェアエンジニアリングタスク向けに設計されています。このモデルはSWE-benchベンチマークテストで優れた成績を収め、オープンソースモデルのトップにランクインしており、240億のパラメータと128kトークンの長いコンテキストウィンドウを持っています。
Devstralは、ソフトウェアエンジニアリングタスク用に特別に開発された大規模言語モデルで、Mistral AIとAll Hands AIが共同開発しました。SWE-benchベンチマークテストで優れた成績を収め、1位のオープンソースモデルです。
moonshotai
Kimi-Dev-72Bは、ソフトウェアエンジニアリングタスクに使用されるオープンソースのコーディング大規模言語モデルで、SWE-bench Verifiedでオープンソースモデルの中で最良の成績を収めています。
lmstudio-community
Devstralはコードリポジトリ探索とソフトウェアエンジニアリングエージェントタスクに特化した240億パラメータの言語モデルで、SWE-benchで優れた性能を発揮します。
mlx-community
これはSWE-bench/SWE-agent-LM-32Bモデルから変換された4ビット量子化バージョンで、ソフトウェアエンジニアリングタスクに最適化された言語モデルです。
SWE-smithツールキットでトレーニングされたソフトウェアエンジニアリング専用言語モデル、Qwen 2.5 Coder Instructでファインチューニング済み
all-hands
Qwen2.5-Coder-32B-Instructをファインチューニングしたレビューモデルで、コードソリューションの品質評価に使用され、SWE-BenchベンチマークでSOTA成績を達成