AIニュース

世界のAIイノベーションの瞬間をお見逃しなく

AIデイリー

毎日の3分AI業界トレンド

AIタイムライン

AI業界のマイルストーン

Alハードウェアです

すべてのAIハードウェアをリストアップします。

AIマネタイズガイド

画像コレクション

AI画像生成マネタイズ事例

ビデオコレクション

AIビデオ生成マネタイズ事例

オーディオコレクション

AIオーディオ生成マネタイズ事例

コンテンツコレクション

AIコンテンツ作成マネタイズ事例

AIチュートリアル

AIプロダクトランキング

AIウェブサイトの総訪問数ランキングを表示

AIトラフィック成長ランキング

トラフィックによる最も急速に成長しているAIウェブサイトを追跡

AIトラフィック減少ランキング

トラフィックが大幅に減少しているAIウェブサイトに焦点を当てる

AI週間ランキング

AIウェブサイトの週間訪問数ランキングを表示

AIオープンソースプロジェクトライブラリ

概要

GitHubの人気のあるAIオープンソースプロジェクトの概要

プロダクトライブラリツールナビゲーション MCP

AWS、SWE-PolyBenchを発表：AIプログラミングアシスタントを評価するための新しいオープンソースベンチマーク

AIbase基地

公開日AIニュース · 1 分で読めます · Apr 24, 2025

最近、AWS AI Labsは、AIプログラミングアシスタントの評価のためのより包括的なフレームワークを提供することを目的とした、多言語対応のオープンソースベンチマークであるSWE-PolyBenchを発表しました。

大規模言語モデル（LLM）の進歩に伴い、ソフトウェアコードの生成、修正、理解が可能なAIプログラミングアシスタントの開発は目覚ましい進歩を遂げています。しかし、現在の評価方法は多くの限界があり、多くのベンチマークはPythonなどの単一言語に焦点を当てていることが多く、実際のコードベースの構造と意味の多様性を完全に反映することはできません。

SWE-PolyBenchは、21個のGitHubコードリポジトリを網羅し、Java、JavaScript、TypeScript、Pythonの4つの一般的なプログラミング言語をサポートし、バグ修正、機能実装、コードリファクタリングなど2110個のタスクを提供します。従来のベンチマークとは異なり、SWE-PolyBenchは実際のプルリクエスト（PR）を使用しており、これらのPRは実際の問題を解決し、関連するテストケースが用意されているため、検証可能な評価が可能です。さらに、迅速な実験をサポートするために、タスクと言語の多様性を維持したより小さな階層的サブセットであるSWE-PolyBench500も公開されています。

技術的な構造と評価指標に関して、SWE-PolyBenchは実行ベースの評価プロセスを採用しています。各タスクには、コードベースのスナップショットと、GitHubの問題から派生したタスクの説明が含まれています。システムは、JavaのMavenやJavaScript/TypeScriptのnpmなど、特定の言語エコシステム用に構成されたコンテナ化されたテスト環境で、関連する実際の修正パッチを適用します。評価結果は、失敗から成功（F2P）と成功から成功（P2P）の2種類の単体テストを使用して測定されます。

プログラミングアシスタントをより詳細に評価するために、SWE-PolyBenchは、ファイルレベルとノードレベルの検索スコアを含む、具体的な構文木（CST）に基づく指標を導入しました。これにより、プログラミングアシスタントがコードベースの関連部分の検索と修正を行う能力を評価します。今回の評価では、AnthropicのClaude 3.5モデルを使用し、ベンチマークの多言語とコードベースの要件を満たすように調整された、Aider、SWE-Agent、Agentlessの3つのオープンソースプログラミングアシスタントが採用されました。

評価の結果、プログラミング言語とタスクの種類によってパフォーマンスに大きな違いがあることが示されました。たとえば、Pythonタスクの成功率は最大24.1％に達しましたが、TypeScriptはわずか4.7％でした。タスクの複雑さに関しては、単一機能またはクラスの修正タスクの成功率は40％に達しましたが、複数のファイルの変更を含むタスクでは著しく低下しました。

github: https://github.com/amazon-science/SWE-PolyBench

要点：

🌟 AWSがSWE-PolyBenchを発表。AIプログラミングアシスタントのための包括的な評価フレームワークを提供します。

🔧 ベンチマークは21個のGitHubコードリポジトリを網羅し、Java、JavaScript、TypeScript、Pythonの4つの言語をサポートしています。

📈 評価結果によると、言語とタスクの種類によってパフォーマンスに大きな違いがあり、Pythonタスクの成功率が最も高くなっています。

SWE-PolyBench AIプログラミングアシスタント大規模言語モデル（LLM）AWSAILabs

この記事はAIbaseデイリーからのものです

【AIデイリー】へようこそ！ここは、毎日人工知能の世界を探求するためのガイドです。毎日、開発者に焦点を当て、技術トレンドを洞察し、革新的なAI製品アプリケーションを理解するのに役立つ、AI分野のホットなコンテンツをお届けします。

—— AIbase デイリーグループによって作成

中国版Cursor！腾讯がAIプログラミングアシスタントのCodeBuddyをリリース

May 14, 2025

バイトダンス、QuaDMixを発表：大規模言語モデルの事前学習データの質と多様性を統合するフレームワーク

Apr 28, 2025

バイトダンス、効率的な事前学習長さスケーリング技術を発表長シーケンス訓練のボトルネックを突破

Apr 23, 2025

GLM-4-32BとGLM-Z1-32BがOpenRouterで公開、無料開放

清華大学KEG研究所（THUDM）が開発した最先端の大規模言語モデル(LLM)であるGLM-4-32BとGLM-Z1-32Bが、OpenRouterプラットフォームで正式に公開され、全世界のユーザーに完全に無料で開放されました。この画期的な出来事は、高性能AIモデルの普及に向けた重要な一歩を踏み出したことを示しており、開発者、研究者、そしてAI愛好家にとって、人工知能アプリケーションの更なる革新を促進する強力なツールを提供します。モデル公開：強力な性能、無料開放

Apr 22, 2025

マイクロソフトMarkItDown MCP：Word、ExcelなどをMarkdown形式に変換

Apr 21, 2025

190

バイトダンスがオープンソースのChatTS-14Bを発表：ネイティブな理解と時間的推論

バイトダンスの研究チームは、時系列データの理解と推論のために設計された140億パラメーターの大規模言語モデル（LLM）、ChatTS-14Bのオープンソース化を発表しました。Apache2.0ライセンスで公開されたChatTS-14Bのオープンソース化は、AIコミュニティで大きな注目を集め、時系列分析と生成AIの組み合わせにおける大きな進歩とみなされています。ChatTS-14B：時系列のためのインテリジェントな対話エンジンChatTS-14BはQwen2.5-1をベースに...

Apr 21, 2025

100

IntelがAI Playgroundをオープンソース化、Intel Arcグラフィックスカードで様々なAIモデルを使用可能に

Intelは、生成AIソフトウェア「AI Playground」の正式なオープンソース化を発表し、AIコミュニティから大きな注目を集めています。Intel Arc GPUと統合グラフィックスカード向けに最適化されたAIツールであるAI Playgroundは、「AIの中心」として記述されており、ローカルで動作するチャット型大規模言語モデル（LLM）や画像・動画生成機能をサポートしています。今回のオープンソース化は、Intelによる生成AI技術普及に向けた取り組みを示しています。

Apr 21, 2025

LMArenaが正式に会社設立 AIの中立的な評価プラットフォームを提供

Apr 18, 2025

120

DroidRun正式オープンソース化 LLM駆動によるAndroidスマホ自動化制御の新突破

最近、DroidRunというオープンソースプロジェクトが大きな注目を集めています。このプロジェクトは、大規模言語モデル（LLM）を用いて自然言語命令によるAndroidスマホの制御を実現し、かつてない自動化体験を提供します。ソーシャルメディア管理から日常的なタスクの自動化まで、DroidRunはAIがモバイル機器のインタラクション分野で持つ巨大な可能性を示しています。AIbaseの調べによると、DroidRunは正式にオープンソース化され、ソースコードはGitHubに公開されており、開発者や技術愛好家による自由な探求を可能にしています。

Apr 17, 2025

230

OpenAI、AIプログラミングツールWindsurfを30億ドルで買収へ

ブルームバーグの報道によると、OpenAIはAI支援プログラミングツールWindsurf（旧Codeium）の買収交渉を進めており、取引額は約30億ドルにのぼるという。この買収が実現すれば、OpenAIにとって過去最大規模の買収となり、AI駆動の開発者ツール市場における重要な一歩となるだろう。Windsurf：AIプログラミング分野の注目ツールWindsurfは、開発者から高い人気を得ているAIプログラミングアシスタントであり、独自の…

Apr 17, 2025

190

AIニュース

AIデイリー

AIタイムライン

Alハードウェアです

最新事例

画像コレクション

ビデオコレクション

オーディオコレクション

コンテンツコレクション

最新チュートリアル

AIプロダクトランキング

AIトラフィック成長ランキング

AIトラフィック減少ランキング

AI週間ランキング

アメリカ合衆国

中国

インド

ブラジル

画像生成

パーソナルアシスタント

キャラクター生成

ビデオ生成

AIプロジェクトランキング

AIプロジェクト成長ランキング

AI開発者ランキング

AI組織ランキング

Deepseek

TTS

LLM

ChatGPT

概要

AWS、SWE-PolyBenchを発表：AIプログラミングアシスタントを評価するための新しいオープンソースベンチマーク

AIbase基地

この記事はAIbaseデイリーからのものです

関連AIニュースの推奨

中国版Cursor！腾讯がAIプログラミングアシスタントのCodeBuddyをリリース

バイトダンス、QuaDMixを発表：大規模言語モデルの事前学習データの質と多様性を統合するフレームワーク

バイトダンス、効率的な事前学習長さスケーリング技術を発表 長シーケンス訓練のボトルネックを突破

GLM-4-32BとGLM-Z1-32BがOpenRouterで公開、無料開放

マイクロソフトMarkItDown MCP：Word、ExcelなどをMarkdown形式に変換

バイトダンスがオープンソースのChatTS-14Bを発表：ネイティブな理解と時間的推論

IntelがAI Playgroundをオープンソース化、Intel Arcグラフィックスカードで様々なAIモデルを使用可能に

LMArenaが正式に会社設立 AIの中立的な評価プラットフォームを提供

DroidRun正式オープンソース化 LLM駆動によるAndroidスマホ自動化制御の新突破

OpenAI、AIプログラミングツールWindsurfを30億ドルで買収へ

バイトダンス、効率的な事前学習長さスケーリング技術を発表長シーケンス訓練のボトルネックを突破