Meta AIの研究者と学術パートナーが共同で開発した革新的なシステム、MILS(多モーダル反復LLMソルバー)は、特別な訓練なしで、大規模言語モデルに画像、動画、音声の処理を教えることができます。MILSは大量のデータ訓練ではなく、言語モデルの自然な問題解決能力に依存しており、これがその独自の強みとなっています。
MILSの動作原理は、2つのAIモデルをペアにしてタスク解決を行うことです。1つは「ジェネレーター」で、タスクの解決策を提案し、もう1つは「スコアリング」で、生成されたソリューションの効果を評価します。スコアリングによるフィードバックは、ジェネレーターが答えを継続的に最適化し、満足のいく結果が得られるまで助けます。例えば、画像記述タスクでは、MILSは画像記述を段階的に洗練することで、様々なレベルの画像詳細を正確に記述することができます。
画像記述において、MILSは特に優れた性能を示します。Llama-3.1-8Bモデルをジェネレーターとして、CLIPモデルをスコアリングとして使用することで、CLIPが画像記述タスクのために特別に訓練されていないにも関わらず、現在の最先端の方法と同等かそれ以上の詳細な画像記述を作成できます。さらに、MILSはテキストプロンプトの微調整によりテキストから画像への生成能力を強化し、AI生成のプロンプトと画像処理ツールを組み合わせることで、スタイル変換などの画像編集タスクを処理できます。
ジェネレーターとスコアリング間のステップ数が増えるにつれて、画像記述の正確性が高まります。| 画像:Ashutosh 等
MILSの機能は画像だけでなく、動画や音声にも拡張されています。MSR-VTT動画データセットを使用してテストしたところ、MILSは動画コンテンツの記述において既存のモデルよりも優れた性能を示しました。MILSは実行中にモデルパラメータを変更しないため、様々なタイプデータを可読テキストに変換でき、画像や音声など複数の情報源からの情報を統合し、必要な形式に変換することで、多モーダル情報融合アプリケーションの可能性を切り開きます。
テストによると、より大きなジェネレーターとスコアリングモデルを使用すると、より正確な結果が得られ、潜在的な解決策の数を増やすことで性能が大幅に向上することが示されました。研究者たちは、より大規模な言語モデルに拡張することで、結果の質が向上するだけでなく、パフォーマンスも大幅に向上することも発見しました。
風景は、単純な基本的な説明から、より正確な詳細とより多くの自然な要素を持つ複雑な風景表現へと進化します。| 画像:Ashutosh 等
MILSが採用したこの革新的な戦略は、現在のAI分野におけるより高度な推論能力への傾向と合致しています。Metaチームは、MILSが将来、3Dデータ処理などの分野で大きな可能性を示し、多モーダルAIの発展をさらに推進すると述べています。
OpenAIのGPT-4や、MetaのLlama3.2、MistralのPixtral、DeepSeekのJanus Proなどの他のオープンソースの代替手段の急速な発展に伴い、これらの新興の多モーダルAIシステムは、日常生活への応用を加速しており、AIの将来の発展のための重要な基盤を築いています。