AWS、SWE-PolyBenchを発表:AIプログラミングアシスタントを評価するための新しいオープンソースベンチマーク
AWS AI Labsは最近、SWE-PolyBenchを発表しました。これは、AIプログラミングアシスタントの評価のためのより包括的なフレームワークを提供することを目的とした、多言語対応のオープンソースベンチマークです。大規模言語モデル(LLM)の進歩に伴い、コードの生成、修正、理解を支援するAIプログラミングアシスタントの開発は目覚ましい進歩を遂げています。しかし、現在の評価方法は依然として多くの限界があり、多くのベンチマークはPythonなどの単一言語に焦点を当てており、包括的な評価ができていません。