アップル社は最近、人工知能分野での最新の進展を示す重要な論文を公開しました。業界で一般的に採用されている拡散モデルや自己回帰モデルとは異なり、アップルは広く見過ごされてきた「正規化フロー(Normalizing Flows)」技術を選択しました。この技術の核は、数学的な変換によって現実世界のデータ(例えば画像)を構造化されたノイズに変換し、それを明確な画像サンプルに戻すことです。
正規化フローの最大の利点は、生成された画像の確率を正確に計算できる点です。これは多くの拡散モデルでは達成できないことであり、確率が重要となるタスクにおいて特に価値があります。ただし、この技術の開発には比較的高いコストがかかり、初期のモデルはしばしばぼけた画像や詳細の欠如といった問題を抱えていました。
今回の研究では、アップルは新しい正規化フロー・モデル「TarFlow(Transformer AutoRegressive Flow)」を発表しました。このモデルは、生成したい画像を複数の小さなブロックに分割し、それぞれのブロックごとにピクセル値を順番に生成します。各ブロックの生成はすでに生成された部分に基づいているため、画像を固定語彙に圧縮する際に生じる品質の損失を効果的に防ぐことができます。
TarFlow は高解像度の画像生成においても課題を抱えているため、アップルは強化版の STARFlow(Scalable Transformer AutoRegressive Flow)を提案しました。このモデルは「潜在空間(潜空間)」で動作し、まず画像の圧縮表現を生成した後、デコーダーを使用して拡大します。この方法により、生成効率が向上し、大量のピクセル値を予測する必要がなくなり、画像の全体的な構造に焦点を当てることができます。
さらに、STARFlow はテキストプロンプトの処理においても大幅な改善を遂げました。従来の内蔵テキストエンコーダーに依存するのではなく、グーグルの小規模言語モデル「Gemma」など既存の言語モデルを呼び出すことができるようになりました。これにより、ユーザーの言語指示をより柔軟に処理することが可能になります。このようにすることで、STARFlow は画像の細部の生成と最適化に注力し、生成された画像の質をさらに向上させています。
アップルがAIによる画像生成分野で行っている探求は、同社が継続的に技術革新に取り組んでいることを示しており、今後の画像生成技術に対して新たなアプローチと方向性を提供しています。
ポイントをまとめると:
🌟 アップルは「正規化フロー」技術を用いて、従来の拡散モデルとは異なる新しいAI画像生成モデルを開発しています。
🖼️ TarFlow モデルは画像をブロックに分割して生成し、圧縮による品質低下を防ぎます。
🚀 STARFlow は潜在空間で動作し、既存の言語モデルを呼び出してテキストプロンプトの処理を最適化します。