OpenAIの最新ベンチマーク:AIのプログラミング能力は人間の4分の1、限界も明らかに
OpenAIは先日、AIのプログラミング能力を評価する重要なレポートを発表しました。100万ドル相当の実開発プロジェクトを通じて、AIがソフトウェア開発分野でどのような現状にあるのかを明らかにしています。SWE-Lancerと呼ばれるこのベンチマークテストは、Upworkから集めた1400件の実プロジェクトを網羅し、AIの直接開発とプロジェクト管理の2つの分野におけるパフォーマンスを包括的に評価しました。テストの結果、最高性能を達成したAIモデルであるClaude3.5Sonnetは、コーディングタスクでの成功率が26.2%、プロジェクト管理決…