字節跳動は、70億のアクティブなパラメータを持ち、全体で140億のパラメータを持つオープンソースのマルチモーダル基礎モデル「BAGEL」を発表しました。
BAGELは、標準的なマルチモーダル理解ベンチマークテストにおいて優れたパフォーマンスを発揮し、現在のいくつかのトップレベルのオープンソースビジュアル言語モデル、例えばQwen2.5-VLやInternVL-2.5を上回っています。また、テキストから画像の生成品質についても、強力な専門生成器SD3と比肩する結果を達成しています。さらに、古典的な画像編集シナリオでは、多くの主要なオープンソースモデルよりも優れた効果を示しました。
BAGELは、「混合トランスフォーマーエキスパート(MoT)」と呼ばれるアーキテクチャを使用しており、多様なマルチモーダル情報に対する学習能力を最大化することを目指しています。このモデルは、画像のピクセルレベルとセマンティックレベルの特徴を捉えるために2つの独立したエンコーダーを使用しています。全体的なフレームワークは「次のタグ予測」のパラダイムに従っており、トレーニング時には次の言語または視覚タグの予測を行い、圧縮目標を達成します。
事前学習プロセスでは、BAGELは言語、画像、ビデオ、ウェブデータから得られる数兆もの交差するマルチモーダルタグを利用しました。継続的なトレーニングと監督微調整を通じて、BAGELはオープンソースモデルを超える性能を標準的な理解と生成ベンチマークテストで示し、自由形式の画像編集、将来のフレーム予測、3D操作、世界ナビゲーションなどの高度なコンテキストマルチモーダル能力を実現しました。
BAGELの事前学習が拡大するにつれ、研究者たちはモデルの理解、生成、編集タスクにおけるパフォーマンスが持続的に向上していることに気づきました。異なる能力はトレーニングの異なる段階で現れ、初期にはマルチモーダル理解と生成の能力が現れ、後期にはより複雑な知能編集能力が現れます。
研究によれば、変分自己符号化器(VAE)と視覚トランスフォーマー(ViT)の特性を組み合わせることで、知能編集能力が著しく向上することが示され、視覚 - 語彙コンテキストが複雑なマルチモーダル推論において重要な役割を果たすことが強調されています。
プロジェクト: https://huggingface.co/ByteDance-Seed/BAGEL-7B-MoT
要点:
🌟 BAGELは70億のアクティブパラメータを持つオープンソースマルチモーダル基礎モデルで、標準的なベンチマークテストで数々を上回っています。
🖼️ このモデルは画像生成と編集タスクにおいて優れたパフォーマンスを示し、自由形式の画像編集や世界ナビゲーションを行うことができます。
📈 マルチモーダル事前学習を通じて、BAGELは複雑なマルチモーダル推論タスクに適応するための持続的なパフォーマンス向上を示しました。