多様なモダリティを持つ人工知能(AI)の分野において、アップル社のエンジニアとフランスのソルボンヌ大学の研究チームが共同で重要な研究に取り組んでいます。最近、テクノロジーメディアのmarktechpostが関連するブログ記事を公開し、多様なモダリティを持つAIにおける早期融合と後期融合モデルの応用と将来性について論じています。研究によると、ゼロからトレーニングされた早期融合モデルは、計算効率と拡張性においてより優れていることが示されました。
多様なモダリティを持つAIの目標は、画像やテキストなど、複数のデータタイプを同時に処理することですが、これらの異なる情報源のデータを統合することは、長らく困難な課題でした。現在の技術は一般的に後期融合(late-fusion)戦略を採用しており、これは事前にトレーニングされた単一モダリティモデル(例えば、ビジョンモデルと言語モデル)を組み合わせる手法です。この方法は操作が簡単ですが、真の多様なモダリティ理解を実現する際には、単一モダリティの事前トレーニングによる固有のバイアスによって制限され、結果としてモデルがクロスモーダルな関係を捉える能力に影響を与えます。
画像出典:画像はAIによって生成され、Midjourney社の画像ライセンスサービスを利用しています。
システム規模が拡大するにつれて、各コンポーネントのパラメータ、事前トレーニングの必要性、拡張特性の違いが顕著になり、計算資源の割り当てが複雑になります。特に、高度な多様なモダリティ推論を必要とするタスクでは、パフォーマンスが著しく低下します。このような背景の下、アップルとソルボンヌ大学の研究チームは従来のアーキテクチャ選択に挑戦し、ネイティブ多様なモダリティモデル(NMMs)の拡張特性について深く探求しました。
研究では、早期融合と後期融合モデルを比較しました。その結果、ゼロからトレーニングした場合の両者のパフォーマンスは同等であるものの、早期融合モデルは計算予算が少ない状況下でより効率的で、拡張性も高いことが示されました。さらに、チームはエキスパート混合(MoE)スパースアーキテクチャも探求しました。このアーキテクチャは、パラメータを動的に割り当て、異なるモダリティに対して専門的に最適化することができます。高密度モデルと比較して、スパースモデルは小規模モデルにおいて明確な優位性を示しました。
研究によると、スパースモデルは、アクティブパラメータよりもトレーニングトークンを拡張する傾向があり、これは高密度モデルの拡張方法とは対照的です。一連の実験を通じて、研究チームは0.3億から40億のアクティブパラメータを持つ多様なモダリティモデルをトレーニングし、早期融合とスパースアーキテクチャが多様なモダリティ処理における可能性を実証しました。これらの発見は、従来の設計理念に挑戦するだけでなく、将来の高効率多様なモダリティAIシステムの開発のための新しい道を提示しています。