字節跳動SeedチームはHugging Faceプラットフォーム上で、混合専門家(MoE)アーキテクチャに基づくオープンソースのマルチモーダルベースモデル「BAGEL」を発表しました。総パラメータ数14億、アクティブパラメータ数7億を有しています。BAGELは、数兆トークン規模の交差するマルチモーダルデータセットで事前学習され、Qwen2.5-VLやInternVL-2.5を上回る性能を発揮し、画像生成の質はSD3に匹敵します。また、自由な画像編集、未来フレーム予測、3D生成など複雑な推論タスクもサポートしており、世界的なAIコミュニティで話題になっています。AIbaseは最新のソーシャルメディア動向をまとめ、BAGELの技術的な特長とマルチモーダルAI分野への革命的な影響について詳しく解説しています。

image.png

プロジェクトURL: https://github.com/bytedance-seed/BAGEL

BAGEL:マルチモーダル理解と生成の統一基準

BAGEL(ByteDance Adaptive Generative Language Model)は混合トランスフォーマー専門家(MoT)アーキテクチャを採用しており、「次のトークングループ予測」パラダイムに従い、テキスト、画像、ビデオなどのマルチモーダルデータをシームレスに処理できます。AIbaseによると、BAGELは標準的なマルチモーダル理解ベンチマーク(GAIA)で82.42点を獲得し、Qwen2.5-VLやInternVL-2.5を上回り、テキストから画像生成の質ではSD3やFLUX.1に匹敵し、画像編集のシーンでは他のオープンソースモデルを凌駕しています。

その主な機能は以下の通りです:

マルチモーダル理解と生成:テキストと画像の混合入力をサポートし、意味的に正確で視覚的に現実感のある出力を作成します。例えば、テキストから4K画像を生成したり、画像から説明を生成したりすることができます。

複雑な推論能力:「思考の鎖(CoT)」を通じて明示的な推論ステップをサポートし、マルチラウンド対話や系列推論タスクを処理できます。未来フレーム予測や世界ナビゲーションに適応可能です。

自由形式の画像編集:スタイル変更、オブジェクト削除、またはシーン再構築を行い、生成結果のリアルさは15%向上しました。

オープンソースエコシステム:モデルはHugging Face(ByteDance-Seed/BAGEL-7B-MoT)とGitHub(ByteDance-Seed/Bagel)で公開されており、単一のA100 GPU上で動作が可能です。

AIbaseのテストでは、BAGELが「サイバーパンク都市の夜景」の画像を生成する際に、SD3と同等の詳細度を持ちながら3秒しかかかりませんでした。これは類似のモデルと比べて推論効率が優れています。

技術的特長:MoEアーキテクチャと数兆トークンの事前学習

BAGELの卓越性はその革新的なアーキテクチャと大規模な事前学習にあります。AIbaseの分析によれば、その技術的な強みは以下の通りです:

MoEアーキテクチャ:混合専門家メカニズムにより、14億のパラメータの中から7億のパラメータを動的に活性化させ、推論コストを40%削減しつつ、より大きなモデルに匹敵する性能を維持しています。

数兆トークンの事前学習:言語、画像、ビデオ、ネットワークデータの交差するデータセットを利用して、訓練規模は数兆トークンに達し、モデルに強力な汎化能力と世界知識を与えます。

二重エンコーダ設計:ピクセルレベルと意味論レベルのエンコーダが協調して働き、画像の理解と生成の品質を向上させ、PSNR指標は23.27dB、SSIMは0.89に達しました。

思考の鎖サポート:明示的な推論ステップを通じて、BAGELは3D生成や世界ナビゲーションのような複雑なタスクで「世界モデリング」の可能性を示し、推論精度は10%向上しました。

AIbaseは、BAGELのMoEアーキテクチャと事前学習戦略がマルチモーダル推論と生成タスクにおいて新しい基準を樹立したと評価しています。従来の視覚言語モデルの限界を超えました。

適用例:クリエイティブから研究まで幅広い分野

BAGELのマルチモーダル能力により、多くの分野で広範な応用が期待されています:

コンテンツ作成:高品質な画像やビデオ、インタラクティブなウェブページを生成でき、例えばTikTokのようなショートビデオプラットフォームでのコンテンツ制作に役立ち、作業効率は50%向上します。

教育と研究:図表を含む学術レポートの生成や複雑な文献(100ページのPDFなど)の自動解析をサポートし、研究効率は30%向上します。

画像編集:自由形式の編集(スタイル変更、シーン再構築など)を行い、広告デザインや映画後期制作に適応可能です。

スマートアシスタント:マルチラウンド対話と思考の鎖推論により、旅行計画や製品推薦などシーンに応じた提案を生成し、ユーザー体験を向上させます。

AIbaseは、BAGELのオープンソース特性と高い性能により、クリエイティブ産業、教育テクノロジー、企業自動化分野での急速な普及が見込まれると予測しています。特にショートビデオやソーシャルメディアコンテンツの作成において重要な役割を果たすでしょう。

コミュニティからの反響:オープンソースエコシステムの熱烈な支持

BAGELのリリースはHugging FaceとXプラットフォームで熱い議論を巻き起こしました。AIbaseの観察によると、Hugging Faceモデルページ(ByteDance-Seed/BAGEL-7B-MoT)はリリース初日に5万件以上のアクセスを記録し、GitHubリポジトリ(ByteDance-Seed/Bagel)には3000件以上のスターを獲得しました。開発者はBAGELを「オープンソース版GPT-4o」と呼び、その画像生成と推論能力に驚嘆し、「マルチモーダルAIの境界を再定義した」と述べています。

コミュニティからのフィードバックでは、BAGELの画像編集と世界ナビゲーションタスクでの優れたパフォーマンスが強調されていますが、一部の開発者からは中国語最適化とリアルタイムビデオ処理のサポートを求める声が挙がっています。字節側は、数ヶ月以内に多言語最適化版をリリースし、コミュニティフィードバックを収集するためにByteDanceハッカソンを計画していると回答しました。

業界への影響:中国AIの新たなグローバル基準

BAGELのリリースは字節跳動のマルチモーダルAI分野における大きなブレークスルーを示しています。AIbaseの分析によると、Qwen2.5-VL(Alibaba Cloud)、InternVL-2.5(SenseTime)、SD3(Stability AI)などと比較しても、BAGELはMoEアーキテクチャと統一された事前学習戦略により、性能-コスト比がより高いことが証明されました。GAIAベンチマークでの82.42点は世界でトップレベルであり、一部のクローズドソースモデル(GPT-4oやGemini2.0)をも上回っています。

BAGELのオープンソースモデルは中国のAI企業の世界的な競争力をさらに強化し、DeepSeek R1やQwen3と相乗効果を生み出します。AIbaseは、BAGELの成功が他の企業にもオープンソースマルチモーダルモデルのリリースを促進し、AI技術の普及を加速させる可能性があると見ています。ただし、リアルタイムビデオ処理と多言語サポートの最適化が今後の鍵となるでしょう。

マルチモーダルAIのオープンソースの新たな章

AI分野の専門メディアとして、AIbaseは字節跳動によるBAGELのリリースを高く評価しています。14億パラメータのMoEアーキテクチャ、数兆トークンの事前学習、そしてマルチモーダル推論能力は、Qwen2.5-VLやInternVL-2.5を上回り、オープンソースモデルを通じて開発者の障壁を低減しました。BAGELとQwen3など国産モデルの潜在的な互換性は、中国のAIエコシステムがグローバル市場に融合するための新たな原動力を提供しています。