最高のSWE-Lancer AIツールモデル_厳選SWE-Lancer情報

AIニュース

OpenAIの最新ベンチマーク：AIのプログラミング能力は人間の4分の1、限界も明らかに

OpenAIは先日、AIのプログラミング能力を評価する重要なレポートを発表しました。100万ドル相当の実開発プロジェクトを通じて、AIがソフトウェア開発分野でどのような現状にあるのかを明らかにしています。SWE-Lancerと呼ばれるこのベンチマークテストは、Upworkから集めた1400件の実プロジェクトを網羅し、AIの直接開発とプロジェクト管理の2つの分野におけるパフォーマンスを包括的に評価しました。テストの結果、最高性能を達成したAIモデルであるClaude3.5Sonnetは、コーディングタスクでの成功率が26.2％、プロジェクト管理決…

9.6k おととい

OpenAI、SWE-Lancerベンチマークを発表：現実世界のフリーランスソフトウェアエンジニアリングにおけるモデルのパフォーマンスを評価

ソフトウェアエンジニアリングの分野では、課題が進化するにつれて、従来のベンチマーク手法では不十分になっています。フリーランスのソフトウェアエンジニアリング業務は複雑で多様であり、単なる孤立したコーディングタスクだけではありません。フリーランスのエンジニアは、コードベース全体を処理し、複数のシステムを統合し、複雑な顧客のニーズに応える必要があります。従来の評価方法は通常、単体テストに重点を置いており、フルスタックのパフォーマンスとソリューションの実際の経済的影響を十分に反映することはできません。そのため、より現実的な評価方法の開発が不可欠です。そこでOpenAIは、SWE-Lan…

10.6k 1 日前

AI製品

SWE-Lancer

SWE-Lancerは、1400以上のオープンソースソフトウェアエンジニアリングタスクを含むベンチマークで、総額100万ドル相当の価値があります。

研究ツール

9.9k

未来を力づける、あなたの人工知能ソリューションシンクタンク

English 简体中文繁體中文にほんご

友情链接:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

ビジネス協力サイトマップ