OpenAI发布GPT-5.2系列模型,在多个专业基准测试中表现卓越,部分领域超越人类专家。该模型在GDPval测试中,以70.9%的成绩在44个职业任务中领先顶尖专家,并在SWE-bench Pro编程测试中取得突破,成为当前专业知识工作表现最佳的AI模型。
OpenAI推出GDPval基准测试,评估AI模型与人类专业人士的表现差异。GPT-5和Claude Opus4.1在某些领域已接近专家水平,但不会立即取代人类工作。企业高管对AI潜力持乐观态度,但实际应用仍需时间。