字节跳动推出开源多模态模型BAGEL 从图像生成到世界建模
字节跳动近日正式发布其最新开源多模态基础模型——BAGEL(Big Advanced Generalized Embodied Learner),以70亿个有效参数的规模,开启多模态AI模型的新阶段。BAGEL在图像理解、生成和编辑等关键任务中表现卓越,已在多个标准评测中超越当前主流开源视觉语言模型(VLM),如Qwen2.5-VL和InternVL-2.5。BAGEL模型基于大规模交错多模态数据进行训练,不仅具备强大的文本转图像生成能力,其效果甚至可媲美专业级生成器Stable Diffusion3(SD3)。在图像编辑、自由形式操作、多视图合成等复杂任务中,BAGEL的定性