最近、アップル社は論文を発表し、話題になっていますが、現在の大型言語モデル(LLM)には推論に関する重大な欠陥があると指摘しました。この意見はソーシャルメディア上で急速に議論を引き起こし、特にGitHubの上級ソフトウェアエンジニアであるショーン・ゴーデッケ氏は強く反対しました。彼は、アップルの結論は一面的すぎると考え、推論モデルの能力を完全に反映していないと述べています。
アップルの論文では、数学やプログラミングなどのベンチマークテストにおいて、LLMのパフォーマンスが信頼できないことが示されています。アップルの研究チームは、伝統的な人工パズルである「漢諾塔」を使用して、異なる複雑さを持つ推論モデルのパフォーマンスを分析しました。その結果、モデルは単純なパズルでは良好なパフォーマンスを見せましたが、複雑さが高いタスクでは推論を放棄し、さらに処理しようとしなくなりました。
たとえば、10枚のディスクを使った漢諾塔問題では、モデルが手作業でステップをすべて列挙することはほぼ不可能だと判断し、「手短な方法」を探そうとしますが、最終的に正しい答えを出すことができませんでした。この発見から、推論モデルは必ずしも能力がないわけではなく、むしろ問題が過度に複雑だと判断したために推論を停止した可能性があることがわかりました。
しかし、ショーン・ゴーデッケ氏はこれに対して疑問を呈しています。彼は、漢諾塔が推論能力を測る最適な例ではないと考えており、モデルの複雑さのしきい値は固定ではないとも述べています。さらに、彼は推論モデルが設計された目的は繰り返し的な作業を行うためではなく、推論タスクを遂行することだと説明しました。漢諾塔を用いて推論能力を測定するのは、あるモデルが複雑な詩を書けなければ言語能力を持っていないと言っているのと同じで、公平ではありません。
アップルの研究は、LLMが推論においていくつかの制限を持っていることを明らかにしましたが、それ自体が推論能力を持たないということではありません。実際の課題は、これらのモデルをよりよく設計し評価することで、その潜在能力を最大限に引き出すことです。