字節跳動は最近、最新のオープンソース多モーダル基礎モデルである「BAGEL(Big Advanced Generalized Embodied Learner)」を正式に発表しました。70億個の有効パラメータを持つ規模で、多モーダルAIモデルの新しいステージを切り開きました。BAGELは画像理解、生成、編集などの重要なタスクで卓越した性能を発揮しており、現在の主流のオープンソースビジュアル言語モデル(VLM)を既に複数の標準評価で上回っています。たとえば、Qwen2.5-VLやInternVL-2.5などです。

BAGELモデルは大規模な交差多モーダルデータに基づいて訓練されており、強力なテキストから画像への生成能力を持っています。その結果はプロフェッショナルなジェネレーターのStable Diffusion3(SD3)に匹敵するほどです。また、画像編集、自由形式の操作、マルチビュー合成など複雑なタスクにおいても、BAGELの質的なパフォーマンスは既存のモデルを大幅に上回っており、特に「ワールドモデリング」などの先端分野での潜在力を示しています。

QQ20250526-093643.png

QQ20250526-093648.png

技術アーキテクチャ面では、BAGELは混合トランスフォーマー-エキスパート(MoT)構造を使用しており、ピクセルレベルと意味論レベルの特徴を捉えるために2つの独立したエンコーダーを採用しています。そのトレーニング方式は「次のマークの予測」戦略に従っており、より効率的な多モーダル事前学習と監視学習を可能にし、理解力と生成力を階段的に強化しています。

開発者が利用しやすいように、字節跳動は事前学習モデルや評価スクリプトをオープンソース化し、詳しい使用マニュアルやGradio WebUIを提供しています。これにより、迅速な展開とテストが可能です。すべてのリソースはGitHub Pagesから入手できます。

研究チームはコミュニティの積極的な参加を奨励しており、リアルなシナリオでのモデルのパフォーマンスに関する問題について、GitHub IssueやDiscord経由でフィードバックを歓迎しています。字節跳動は、持続的なオープンと協力がBAGELの進化を推進する鍵であると述べています。

理解、生成、編集能力を統合した多モーダルモデルとして、BAGELの登場はAI研究者や開発者にとってさらに強力なツールを提供し、汎用人工知能が実用的かつオープンな新しい段階へと進むことを示しています。