最近の研究で、AIモデルの学習過程における潜在能力が、従来の予想をはるかに超えることが明らかになりました。研究者らは、AIモデルの「概念空間」における学習ダイナミクスを分析することで、AIシステムが画像をより良く理解し、生成する方法を発見しました。
画像出典:AI生成画像、画像ライセンス提供元Midjourney
「概念空間」とは、物体の形状、色、大きさなど、訓練データにおける各独立した概念の特徴を表す抽象的な座標系です。研究者によると、この空間で学習ダイナミクスを記述することで、概念学習の速度や、データ属性の影響を受けた学習順序を明らかにできるとのことです。このデータ属性は「概念シグナル」と呼ばれ、データ生成過程における概念値の変化に対する感度を反映しています。例えば、データセットにおいて赤と青の違いが明確であれば、モデルは色の学習速度が速くなります。
研究過程で、研究チームはモデルの学習ダイナミクスが「概念記憶」から「汎化」へと突然方向転換することを観察しました。「大きな赤い円」「大きな青い円」「小さな赤い円」を入力データとしてモデルを訓練したところ、訓練データに含まれていない「小さな青い円」の組み合わせは、単純なテキストプロンプトでは生成できませんでした。しかし、「潜在的介入」技術(モデルの色とサイズを司る活性化を操作する技術)と「過剰プロンプト」技術(RGB値で色の仕様を強化する技術)を用いることで、「小さな青い円」の生成に成功しました。これは、モデルが「青」と「小さい」の組み合わせを理解しているにもかかわらず、単純なテキストプロンプトではその能力を発揮できないことを示しています。
研究者らは、この手法をCelebAなどの実際データセット(性別や笑顔など、様々な顔画像属性を含む)にも適用しました。その結果、モデルは笑顔の女性画像生成において潜在能力を示す一方、基本的なプロンプトでは能力が不足していることがわかりました。さらに、予備実験では、Stable Diffusion 1.4を用いると、過剰プロンプトによって三角形のクレジットカードなど、珍しい画像を生成できることが判明しました。
そこで、研究チームは潜在能力に関する一般的な仮説を提唱しました。それは、生成モデルは潜在能力を備えており、これらの能力は訓練過程で突然かつ一貫して現れるものの、通常のプロンプトでは発揮されない可能性があるというものです。
要点:
🌟 AIモデルは学習過程で、通常のプロンプトでは引き出せない潜在能力を示します。
🔍 「潜在的介入」や「過剰プロンプト」などの技術を用いることで、これらの潜在能力を活性化し、予想外の画像を生成できます。
📊 「概念空間」の学習ダイナミクスを分析することで、様々な概念の学習速度がデータの特徴に影響されることがわかりました。