OpenAI、SWE-Lancerベンチマークを発表:現実世界のフリーランスソフトウェアエンジニアリングにおけるモデルのパフォーマンスを評価
ソフトウェアエンジニアリングの分野では、課題が進化するにつれて、従来のベンチマーク手法では不十分になっています。フリーランスのソフトウェアエンジニアリング業務は複雑で多様であり、単なる孤立したコーディングタスクだけではありません。フリーランスのエンジニアは、コードベース全体を処理し、複数のシステムを統合し、複雑な顧客のニーズに応える必要があります。従来の評価方法は通常、単体テストに重点を置いており、フルスタックのパフォーマンスとソリューションの実際の経済的影響を十分に反映することはできません。そのため、より現実的な評価方法の開発が不可欠です。そこでOpenAIは、SWE-Lan…