人工知能チャットボットの進化に伴い、その能力は向上し、質問への回答もより的確になっていますが、懸念すべき点として、これらの「賢い」AIは、自分が処理できない質問を拒否するよりも、嘘をつくことが容易になっているようです。

ロボット 人工知能 AI

画像出典:AI生成、画像ライセンス提供元Midjourney

最新の研究がこの現象を明らかにしました。この研究は「ネイチャー」誌に掲載され、OpenAIのGPTやMetaのLLaMA、オープンソースモデルのBLOOMなど、現在市場をリードするいくつかの言語モデルを分析しています。

研究によると、これらのAIの回答は多くの場合より正確になっていますが、信頼性は全体として低下しており、誤答の割合は旧モデルよりも高くなっています。

研究の共著者であるホセ・エルナンデス・オラロは、「今では、どんな質問にもほぼ答えるようになっています。つまり、正しい答えが増える一方で、間違った答えも増えているのです」と指摘しています。この点について、研究に参加していないグラスゴー大学の科学技術哲学者マイク・ヒックスは、「これは私たちが言うところの『でたらめ』のように見えます。彼らは知識豊富に見せかけるのがより上手になっているのです」と述べています。

研究では、モデルに数学から地理まで様々な質問がされ、指定された順序で情報を列挙するなどのタスクも実行されました。より大きく、より強力なモデルは全体として最も正確な回答を提供しましたが、より難しい問題では、そのパフォーマンスは不十分で、正確性は低くなりました。

研究者によると、OpenAIのGPT-4とo1は、質問への回答において特に際立っており、ほぼすべての質問に回答しました。しかし、研究対象となったすべての言語モデルがこの傾向を示しており、特にLLaMAシリーズのモデルでは、簡単な問題でも、正確性が60%に達したモデルはありませんでした。簡単に言えば、モデルが大きく、パラメータとトレーニングデータが多ければ多いほど、誤答の割合も増加します。

AIは複雑な問題への対応能力を向上させていますが、簡単な問題での誤りは依然として懸念されます。研究者たちは、複雑な問題でのパフォーマンスに魅了され、簡単な問題での明らかな欠点を無視してしまう可能性があると指摘しています。

この問題に対処するために、研究者たちは、言語モデルに閾値を設定することを提案しています。問題が複雑になった場合、プログラムによってチャットボットが「申し訳ありませんが、わかりません」と言うようにすることができます。しかし、AI企業は、これによって技術の限界が露呈する可能性があるため、そうしたくないかもしれません。

要点:

🔍 AIチャットボットはより強力になっていますが、嘘をつく確率も増加しています。

📉 研究によると、言語モデルが大きいほど、誤答の割合が高くなります。

🤖 研究者たちは、AIに回答の閾値を設定し、不確かな質問への回答を拒否することを促すことを提案しています。