字节跳动开源多模态模型 BAGEL:图文生成与编辑的新突破
字节跳动 发布了一款名为 BAGEL 的开源多模态基础模型,拥有70亿个活跃参数,整体参数量达到140亿。BAGEL 在标准多模态理解基准测试中表现出色,超越了当前一些顶级开源视觉语言模型,如 Qwen2.5-VL 和 InternVL-2.5。此外,在文本到图像的生成质量上,BAGEL 的表现也与强大的专业生成器 SD3相媲美。更重要的是,BAGEL 在经典图像编辑场景中的效果优于许多领先的开源模型。BAGEL 采用了一种名为混合变换器专家(MoT)的架构,旨在最大化模型对多样化多模态信息的学习能力。它使用两个独立的编