大規模モデルの競争状況が再度再編されている。最新版のArtificial Analysisスマート指数によると、Anthropic社の旗艦モデルであるClaude Opus4.6は優れた性能で他を圧倒し、この権威あるランキングでトップに立った。この指数はプログラミング、エージェントタスク、科学的推論などの10項目の深いテストを統合しており、Opus4.6はエージェント系業務、端末プログラミングおよび物理研究プロジェクトにおいてすべて第1位を獲得した。

image.png

注目すべきは、Opus4.6の運用コストが2,486ドルと、OpenAIGPT-5.2の2,304ドルよりもやや高いものの、効率面では顕著な違いが見られる点である。データによると、Opus4.6はテスト中に約5,800万個の出力トークンを消費した。この数字は前世代モデルの4.5の2倍だが、GPT-5.2の驚くべき1億3,000万個のトークンに比べれば、Opus4.6は情報密度と処理ロジックにおいてより簡潔であることが分かる。現在、このモデルは全面的にClaude.aiプラットフォームにリリースされており、Google VertexやAWS Bedrockなどの主要クラウドサービスを通じて呼び出すことも可能である。

しかし、Anthropicの先頭地位は厳しい挑戦に直面している。業界の大手であるOpenAIの次世代プログラミングツールCodex5.3はすでにテスト対象リストに含まれている。分析者は、Codex5.3がすべての基準テストを完了した場合、コード作成や関連する論理分野での優位性により、王座を取り戻す可能性が高いと指摘している。この「世界一賢いモデル」を巡る攻防戦は、まだ終わりを迎えていない。