最高のSWE-bench Verified AIツールモデル_厳選SWE-bench Verified情報

AIニュース

ベンチマーカーは実際の能力を示していない？　AIコードの通過率は最大で7倍高く評価されている可能性がある

SWE-bench VerifiedベンチマークはAIのプログラミング能力を過大評価する可能性が指摘された。テストで「合格」と判定されたAI生成コードの約半数が実際のプロジェクト審査で却下されることが判明し、自動評価と実践的なソフトウェア品質の間に乖離があることが示された。この発見はAI支援ソフトウェア工学の評価基準に重要な疑問を投げかけている。....

13.4k 9 時間前

ベンチマーカーは実際の能力を示していない？　AIコードの通過率は最大で7倍高く評価されている可能性がある

14日で100万ダウンロード突破！チーパーGLM-4.7-Flashがオープンソース大規模モデルのSOTAをリード

チーパーAIのオープンソースモデルGLM-4.7-Flashは、Hugging Faceでのダウンロード数が2週間で100万を突破しました。この30B-A3Bミックス思考モデルはパフォーマンスが強く、SWE-bench Verifiedやτ²-Benchなどのテストにおいて、gpt-oss-20bやQwen3-30B-A3B-Thinking-2507を上回り、同サイズのモデルの中でリードしています。

14.6k 2 日前

14日で100万ダウンロード突破！チーパーGLM-4.7-Flashがオープンソース大規模モデルのSOTAをリード

北京版幻方が大規模オープンソース！40BパラメータのモデルがAIの境界を突破　3090グラフィックカードのみで可能！

九坤投資がAI大規模モデルIQuest-Coder-V1シリーズをリリースし、強力なコード生成と理解の能力を備えています。このシリーズは7B、14B、および40Bのパラメータバージョンを提供しており、そのうち40BバージョンはSWE-Bench Verifiedランキングで優れた成績を収め、81.4％のスコアでClaude Opus-4.5やGPT-5.2などの著名なモデルを上回り、テクノロジー業界の注目を集めました。

19.1k 1 日前

Mistral AIが2世代目のオープンソースコードモデル「Devstral2」を発表、性能に優れ、差別化されたライセンス戦略を採用

Mistral AIが第2世代オープンソースコーディングモデル「Devstral2」と「Devstral Small2」を発表。主力モデルDevstral2は1230億パラメータを搭載し、SWE-Bench Verifiedベンチマークで72.2%を記録、多くのオープンソースモデルを性能で上回る。企業規模に応じたライセンス戦略を採用。....

15.9k 2 日前