最近、プリンストン大学、字節跳動、清華大学、北京大学が協力して、多モーダル大規模モデルの「MMaDA」を発表しました!これは普通のAIではありません。このAIは「深い思考」を行う能力があり、テキスト、画像、さらには複雑な推論タスクにおいても自在に切り替えることができるのです。そのパフォーマンスは、おなじみのGPT-4やGemini、SDXLを超えています。

image.png

現在の多モーダルモデルはすでに非常に優れていますが、画像を解釈したり、テキストから画像を生成したりすることができます。しかし、MMaDAはそれだけでは足りないと示しています。従来のモデルは異なるモードを処理する際にそれぞれ独立したコンポーネントや複雑なハイブリッドメカニズムが必要で、「マルチツールボックス」のような存在でした。しかし、各ツールは独立しており、切り替えが多少不便だったのです。

MMaDAチームはこの「障壁」を破壊し、AIが本当に一体化することを目指しました。

MMaDAの三大「ブラックテクノロジー」:AIを単に理解させるだけでなく、しっかりと「考える」力を付ける!

MMaDAが他を引き離している秘密は、その三大核心技術革新です。

統一拡散アーキテクチャ:モードの「ブレンド」を実現!

想像してみてください。あなたが超知的な「万能接着剤」を持っているとしたら、どんな形や材質の欠片でも完璧に結合させられるでしょう。MMaDAもそのような「万能接着剤」を採用しています。それは共有される確率式とモードに依存しない設計を持ち、テキストや画像などの異なる種類のデータを処理する際に、モード固有のコンポーネントが不要です。これにより、AIは異なるデータタイプ間でスムーズに切り替えができ、効率と連続性が大幅に向上します。

image.png

ミックスド・ロング・チェーン・オブ・シンキング(Mixed Long CoT)ファインチューニング:AIに「深い思考」を教える!

私たちは、大規模モデルが「思考」する際、しばしば「チェーン・オブ・シンキング(CoT)」に頼っています。しかし、MMaDAはさらに進化し、「ミックスド・ロング・チェーン・オブ・シンキング」ファインチューニング戦略を考案しました。これは、テキストとビジュアル領域の間で推論プロセスを統一する独自のCoT形式を開発し、強化学習前の「初期訓練」段階でAIに複雑なタスクを処理できるようにしました。まるでAIに「深奥の秘術」を事前に教えておくことで、実践前に「深い思考」のスキルを磨かせているのです!

ユニバーサル強化学習アルゴリズムUniGRPO:生成と推論、両方を極める!

ただ考えるだけではなく、AIは「実践を通じて真理を得る」必要があります!MMaDAは拡散モデル専用の統一されたポリシー勾配強化学習アルゴリズム「UniGRPO」を提案しました。これは多様な報酬モデリングを使い、推論と生成タスクの後訓練を巧みに統合し、モデルの性能を継続的に向上させます。従来、推論と生成には異なるトレーニング手法が必要でしたが、UniGRPOは「全能コーチ」として、AIが「知性競技」(推論)と「創造工房」(生成)の両方で卓越するよう指導します!

image.png

MMaDAの「戦績」:全面的な圧勝、モードを超えて称王!

これらの三大「ブラックテクノロジー」の恩恵を受け、MMaDA-8Bモデルはあらゆるテストで驚くべき汎化能力を示し、「モードを超えて称王」しました:

テキスト推論:LLAMA-3-7BやQwen2-7Bを超えました!これは、数学問題の解決や論理推論など、複雑なテキストタスクにおける「知性」の向上を意味します。

マルチモーダル理解:Show-oやSEED-Xを超えており、画像の理解や関連する質問への回答において、MMaDAはより正確で包括的な結果を出しています。

テキストから画像生成:SDXLやJanusを上回っています!SDXLは現在のところ認められた画像生成の強者ですが、MMaDAはより正確で世界知識に基づいた画像を生成し、その強力なテキスト推論能力のおかげです。

AIBaseによると、これらの成果は、MMaDAが「予備訓練」と「後訓練」の間の溝を埋める効果を示しており、今後の研究開発に包括的な枠組みを提供しています。

image.png

MMaDAの「内功心法」:どのようにして「七十二変」を実現したのか?

では、MMaDAはどのようにしてこのような「七十二変」を実現したのでしょうか?

統一トークン化:テキストや画像に関わらず、MMaDAは一貫した離散トークン化戦略を使用します。これにより、すべてのデータが統一された「レゴブロック」になり、モデルは一つの共通した隠れたトークン予測目標に基づいて操作できます。例えば、512×512ピクセルの画像は1024個の離散トークンに変換されます!まさに異なるモードに「統一服」を着せるというものです。

image.png

三段階「修練」:MMaDAのトレーニングプロセスはまるで「モンスターを倒す冒険」のように、三つの段階があります:

基礎プレトレーニング(ステージ1):膨大なテキストやマルチモーダルデータを使って、モデルに基礎を築きます。

混合長鎖思考ファインチューニング(ステージ2):精密に設計された「長鎖思考」データを使って、モデルに推論と思考を学ばせます。これが「知識がある」から「本当の理解」へ移行する鍵です!

UniGRPO強化学習(ステージ3):最後に強化学習を適用し、モデルを推論と生成タスクで継続的に最適化します。

柔軟なサンプリング戦略:MMaDAは推論時にも非常に柔軟です。

テキスト生成には半自己回帰のデノイジング戦略を使い、より複雑で詳細な説明を生成します。

画像生成には並列非自己回帰サンプリングを使い、効率を高めます。この柔軟な組み合わせにより、さまざまなタスクでの最高のパフォーマンスを確保します。

生成に留まらない:MMaDAは「脳補」や「穴埋め」もできる!

MMaDAにはもう一つの隠れたスキルがあります。それは画像修復(inpainting)や外挿(extrapolation)をサポートしており、追加のファインチューニングが不要です!これは拡散モデルの特性によるもので、これらのタスク自体が「隠されたトークン予測」問題として捉えられ、それがMMaDAのトレーニング目標の一部だからです!

これにより:

テキストシーケンス内の欠損部分を予測する。

与えられた画像や部分的な入力から視覚的質問に対する答えを補完する。

さらには、不完全な視覚的ヒントから画像修復を行う。

このようにして、AIは「脳補」や「穴埋め」ができる万能なアシスタントとなり、その応用範囲と汎化能力が大幅に拡大されました!

結び:拡散モデル、AIの未来の新しいパラダイム?

MMaDAの誕生は間違いなくマルチモーダルAI分野のマイルストーンです。それは初めて拡散モデルに基づく汎用基礎モデルのデザインスペースを体系的に探求し、革新的な後トレーニング戦略を提案しました。実験結果から、MMaDAは専門モデルと比べても互角以上に競争でき、一部ではさらに優れています。これにより、拡散モデルが次世代のマルチモーダルインテリジェンスの基本的なパラダイムとして巨大な潜在能力を持っていることが証明されました!

現時点でのMMaDAのモデルサイズ(8Bパラメータ)にはまだ向上の余地がありますが、その登場により、AI分野はより壮大で統一された未来を描きました。想像してみてください、将来のAIは個別に特化した「エキスパート」ではなく、深い思考能力を持ち、モード間を越えて理解し、無限の創造力を発揮する「全能の天才」になるかもしれません!

プロジェクトURL:https://github.com/Gen-Verse/MMaDA