OpenAIがSWE-bench Verifiedを発表:AIソフトウェアエンジニアリング能力評価の向上
OpenAIは、AIによるソフトウェアエンジニアリングタスクのパフォーマンスをより正確に評価することを目的としたSWE-bench Verifiedを発表しました。これは、元のSWE-benchにおける、厳しすぎる単体テスト、不明確な問題記述、設定が難しい開発環境といった評価上の限界に対処するためのものです。新しいベンチマークでは、Dockerコンテナ環境を導入することで、評価の一貫性と信頼性を向上させ、AIモデルの性能評価を大幅に向上させています。GPT-4oは新しいベンチマークで33.2%のサンプルを解決しましたが、最良のオープンソースエージェントフレームワークA…