OpenAI發佈GPT-5.2系列模型,在多個專業基準測試中表現卓越,部分領域超越人類專家。該模型在GDPval測試中,以70.9%的成績在44個職業任務中領先頂尖專家,並在SWE-bench Pro編程測試中取得突破,成爲當前專業知識工作表現最佳的AI模型。
OpenAI推出GDPval基準測試,評估AI模型與人類專業人士的表現差異。GPT-5和Claude Opus4.1在某些領域已接近專家水平,但不會立即取代人類工作。企業高管對AI潛力持樂觀態度,但實際應用仍需時間。