最高のSWE-Bench AIツールモデル_厳選SWE-Bench情報

AIニュース

AI日報：AI動画の謎のスターHappy Horse登場；愛詩科技PixVerse C1公開；360がしゃしゅアプリを構築

【AI日報】へようこそ！ここでは毎日、人工知能の世界を探求するためのガイドです。毎日、AI分野のホットな情報をご提供し、開発者に焦点を当て、技術トレンドや革新的なAI製品の応用を理解するお手伝いをします。新鮮なAI製品はクリックして詳細をご覧ください：https://app.aibase.com/zh1、Seedance2.0を上回る！8、智譜がGLM-5.1を発表：SWE-benchスコアで世界をリードし、モデル単価が10％引き上げられました。智譜は新たな大規模モデルGLM-5を発表しました。

31.9k 11 時間前

AI日報：AI動画の謎のスターHappy Horse登場；愛詩科技PixVerse C1公開；360がしゃしゅアプリを構築

GLM-5.1 発表：単独で動作できる知能モデル 8時間連続作業可能

GLM-5.1オープンソースモデルは、8時間に及ぶ複雑なプロジェクトを自律処理可能な知能レベルを実現。コード能力と長期タスク実行性能が大幅向上し、グローバルなオープンソースモデルの中で優れた性能を示し、特にSWE-Bench Proテストでは高難度のバグ特定・修正に成功し、既存トップモデルを凌駕。....

18.4k 5 時間前

GLM-5.1を発表、SWE-benchスコアで世界をリード、モデル単価を10%引き上げ

智谱がGLM-5.1大モデルをリリースし、全線で10%値上げ。プログラミングなどの価格はClaude3.5Sonnetと同等に。国産大モデルが初めて主要シーンで世界的トップ企業と価格を揃え、業界競争は価格戦争から性能競争へ移行。....

15.9k 1 時間前

ベンチマーカーは実際の能力を示していない？　AIコードの通過率は最大で7倍高く評価されている可能性がある

SWE-bench VerifiedベンチマークはAIのプログラミング能力を過大評価する可能性が指摘された。テストで「合格」と判定されたAI生成コードの約半数が実際のプロジェクト審査で却下されることが判明し、自動評価と実践的なソフトウェア品質の間に乖離があることが示された。この発見はAI支援ソフトウェア工学の評価基準に重要な疑問を投げかけている。....

11.6k 17 時間前