人工知能の世界では、特に大規模言語モデル(LLM)の推論能力は、科学者たちの関心の的となっています。

最近、アップルのAI研究チームが「大規模言語モデルの数学的推論における限界の理解」と題する論文を発表し、これらのモデルが論理的問題を処理する際の限界を明らかにしました。

image.png

論文では、研究者たちは簡単な数学の問題を用いてこれを示しています。まず、オリバーがキウイフルーツを収穫する問題を提示しました。

以下の通りです:

オリバーは金曜日に44個のキウイフルーツを収穫しました。土曜日はさらに58個収穫しました。日曜日に収穫したキウイフルーツの数は金曜日の2倍です。オリバーは全部で何個のキウイフルーツを収穫しましたか?

明らかに、答えは44+58+(44*2)=190です。大規模言語モデルは算術に関して実際には完璧ではありませんが、このような問題をかなり確実に解決できます。

しかし、モデルの反応を観察するために、いくつかの無関係な情報を追加してみましょう。

オリバーは金曜日に44個のキウイフルーツを収穫しました。土曜日はさらに58個収穫しました。日曜日に収穫したキウイフルーツの数は金曜日の2倍ですが、そのうち5個は平均サイズより少し小さかったです。オリバーは全部で何個のキウイフルーツを収穫しましたか?

これは問題の数学的本質を変えていませんが、最先端のLLMでさえ、この小さな妨害によって間違った答えを出します。例えば、GPT-o1-miniは、日曜日に収穫したキウイフルーツの総数から5個の小さなキウイフルーツを誤って差し引きました。

2.jpg

この実験は、LLMが状況によっては正しい答えを出せるものの、問題の本質を真に理解しているわけではないことを示しています。

研究者たちは、これらのモデルの失敗パターンは、真の論理的推論を行っているのではなく、訓練データで観察された推論手順を複製していることを示していると主張しています。「愛してる」の後に通常「私も愛してる」が続くことを統計的に示せるLLMがいるとしても、それが愛の意味を本当に理解しているという意味ではありません。

image.png

この論文の共著者の一人であるMehrdad Farajtabar氏は、ソーシャルメディアでこの発見をさらに説明しています。彼は、より良いプロンプトエンジニアリングによって、いくつかの簡単なケースではモデルのパフォーマンスを向上させることができるかもしれませんが、複雑な妨害に対しては、モデルは正しい処理のためにより多くのコンテキストデータが必要になる可能性があり、そのような妨害は子供にとっては全く問題にならない可能性があると指摘しています。

この研究は、LLMが言語処理において優れた性能を示す一方で、論理的推論能力はまだ限られていることを思い出させてくれます。これは学術的な問題だけでなく、AI技術が私たちの日常生活の一部になるにつれて、これらの問題の答えはますます重要になります。

AIが複雑なタスクを理解して実行できると単純に仮定するのではなく、その動作原理と限界をより深く理解する必要があります。この研究は、AI技術に対するより深い理解を提供し、これらの技術の使用方法と開発方法に関する貴重な洞察を与えてくれます。

参考文献:https://techcrunch.com/2024/10/11/researchers-question-ais-reasoning-ability-as-models-stumble-on-math-problems-with-trivial-changes/