OpenAIはGPT-5.2シリーズモデルを発表し、多数の専門的な基準テストで優れた成績を収め、一部の分野では人間の専門家を上回った。このモデルはGDPvalテストで44の職業タスクにおいて70.9%の得点を記録し、トップエキスパートを上回り、SWE-bench Proプログラミングテストにおいても突破を遂げた。これにより、現在の専門知識作業におけるパフォーマンス最良のAIモデルとなった。
OpenAIがGDPvalベンチマークを発表、AIと専門家の差を評価。GPT-5とClaude Opus4.1は一部領域で専門家並みだが、すぐに人間を代替しない。企業幹部はAIの可能性に楽観的だが、実用化には時間が必要。....