アップルの研究でAIの「擬似思考」の真実が明らかに: 複雑なタスクでは推論モデルが崩壊する
アップルの研究者たちによって主導された新たな研究は、現在期待されている大型推論モデル(LRM)に冷水を浴びせた。研究では、複雑なタスクを処理する際、思考過程をシミュレートするために設計された推論モデル、例えばClaude3.7ThinkingやDeepseek-R1は、予想に反して「考える能力不足」やパフォーマンスの崩壊といった深刻な問題を引き起こすことが分かった。この研究では、漢ノ塔、ジャンプチェック、川渡り、ブロックワールドといった4つの古典的な論理パズルがテストされた。これらのパズルでは、タスクの制御レベルを正確に調整できる