最近、OpenAIは最新のo3とo4-mini AIモデルを発表しましたが、多くの点で最先端の技術に達している一方、「幻覚」の問題が改善どころか、OpenAIの以前の複数のモデルよりも深刻化していることが判明しました。

「幻覚」とは、AIモデルが誤って虚偽情報を生成する現象であり、現在のAIにおける最も難しい課題の一つです。従来、各世代の新モデルは幻覚の軽減に成功していましたが、o3とo4-miniはそれを覆しました。OpenAIの内部テストによると、これらの推論モデルと呼ばれるAIは、幻覚の発生頻度が同社の以前の世代の推論モデルや、GPT-4oなどの従来の非推論モデルを上回っています。

OpenAI

画像出典:AI生成画像、画像ライセンス提供元Midjourney

OpenAIの技術レポートによると、o3モデルはPersonQAベンチマークテストにおける幻覚率が33%に達し、これは以前のo1とo3-miniモデルの幻覚率(それぞれ16%と14.8%)の2倍に相当します。さらにo4-miniはPersonQAにおける幻覚率が48%に達し、より深刻な問題を示しています。

第三者テスト機関であるTransluceも、o3モデルが回答時にしばしば自ら行ったと主張する架空の行動を記述していることを発見しました。例えば、o3は2021年製のMacBook Proでコードを実行し、その結果を回答にコピーしたと主張しましたが、実際にはそのようなことは不可能です。

Transluceの研究者によると、oシリーズモデルが採用している強化学習手法は、従来の後期トレーニングプロセスで軽減できる問題を拡大する可能性があります。この現象により、o3の実用性が大きく損なわれています。スタンフォード大学の非常勤教授がo3のプログラミングワークフローをテストしたところ、o3が無効なウェブサイトリンクを生成し、使用体験に悪影響を与えていることが判明しました。

幻覚現象は、ある程度モデルの創造性を促進する可能性がありますが、法律分野など正確性が極めて重要な業界では、モデルの頻繁な事実誤認が大きな問題を引き起こします。

モデルの正確性を向上させる効果的な方法の一つは、モデルにウェブ検索機能を与えることです。OpenAIのGPT-4oはウェブ検索によってSimpleQAベンチマークテストで90%の精度を達成しているため、検索機能が推論モデルの幻覚現象を改善する可能性があります。

しかし、推論モデルの幻覚問題が規模の拡大とともに悪化するならば、解決策を見つける緊急性は高まります。OpenAIは、すべてのモデルの正確性と信頼性を向上させるための研究を継続していると述べています。

過去1年間、AI業界は推論モデルに注目するようになりました。これは、従来のAIモデルの技術改善において収穫逓減の傾向が見られるようになったためです。しかし、推論モデルの登場は、より多くの幻覚現象をもたらしているようで、将来の発展に新たな課題をもたらしています。

要点:

🌟 OpenAIの新しい推論モデルo3とo4-miniの幻覚頻度は以前よりも高くなっています。

🤖 o3のPersonQAベンチマークテストにおける幻覚率は33%、o4-miniは48%に達しています。

🔍 モデルの精度を向上させる可能性のある方法として、ウェブ検索機能の導入による幻覚現象の軽減が挙げられます。