アップルの研究者たちが主導する新しい研究では、現在期待されている大規模推論モデル(LRM)に対して一石を投じる結果が示されました。
この研究では、Claude3.7ThinkingやDeepseek-R1などの「思考プロセスのシミュレーション」を目的に設計された推論モデルは、複雑なタスクを解く際には優位性を発揮せず、むしろ「考えすぎ」「性能の崩壊」など深刻な問題が生じることが明らかになりました。
この研究では、漢ノ塔、チェッカー、川を渡る、ブロックワールドといった4つの古典的な論理パズルがテストされました。これらのパズルは、タスクの複雑さを正確に制御できるため、言語モデルの推論能力を測定する理想的なシナリオです。その結果、標準的なLLMはシンプルなタスクで高い精度と効率を示しましたが、複雑さが高まると、推論モデルはわずかに性能が向上しますが、最終的には高複雑度においても完全に崩壊しました。
さらに驚いたことに、これらのモデルは最も複雑なタスクに直面すると、正確さがゼロになり、逆に推論に必要なトークン数が減少していました。つまり、彼らの「考える意欲」と「能力」が逆に低下したのです。
研究チームは、モデルが異なる複雑さを持つタスクに対してどのように推論するかを可視化し、二つの典型的な失敗パターンを特定しました。「過剰推論」:簡単な問題では、答えを見つけた後も誤った選択肢を生成し続けます。「思考崩壊」:高複雑度の問題では、推論過程が途中で停止し、試行経路さえ生成できない状態になります。
推論モデルが「思考連鎖」「自己反省」などのメカニズムを通じて汎用人工知能(AGI)への第一歩と見なされる一方で、アップルの研究者はこう指摘しました:これらのメカニズムには拡張性に関する根本的な欠陥があり、現時点での推論モデルは普遍的な戦略を策定する能力を持たず、それらの「思考」は統計的な生成に過ぎず、真の論理演繹ではないと。
研究ではまた、異なるパズルのパフォーマンスが訓練データに依存することも明らかになりました。例えば、「漢ノ塔」は訓練データに多く含まれていたため、正確さが高い一方で、「川を渡る」のようにデータが少ない類似の複雑さを持つタスクよりも精度が高かったです。これは、現在のモデルが訓練分布に非常に依存していることを示しています。
アップルの研究者たちは最後に、「現在の推論モデルの『思考能力』は問題の複雑さに対して非対称な拡張性があり、高次のタスクを解決する構造的基盤を持っていない」と述べました。彼らは、推論モデルのコアデザイン原則を見直す必要性を訴えています。
この発見は業界にとって非常に重要な意味を持っています。AIモデルの規模拡張による利益が限界を迎えている中で、推論能力は次の段階のAI革命に向けた鍵と考えられており、OpenAIを含む主要企業がこの方向に大きな投資を行っています。しかし、この研究は、AIが本当に「理解」と「推論」に向かうためには、根本的な技術的な課題に直面していることを人々に思い出させています。