字節跳動推出開源多模態模型BAGEL 從圖像生成到世界建模
字節跳動近日正式發佈其最新開源多模態基礎模型——BAGEL(Big Advanced Generalized Embodied Learner),以70億個有效參數的規模,開啓多模態AI模型的新階段。BAGEL在圖像理解、生成和編輯等關鍵任務中表現卓越,已在多個標準評測中超越當前主流開源視覺語言模型(VLM),如Qwen2.5-VL和InternVL-2.5。BAGEL模型基於大規模交錯多模態數據進行訓練,不僅具備強大的文本轉圖像生成能力,其效果甚至可媲美專業級生成器Stable Diffusion3(SD3)。在圖像編輯、自由形式操作、多視圖合成等複雜任務中,BAGEL的定性