A ByteDance lançou recentemente seu mais novo modelo multimodal de código aberto — BAGEL (Big Advanced Generalized Embodied Learner), com 7 bilhões de parâmetros eficazes, inaugurando uma nova fase nos modelos de IA multimoedal. O BAGEL se destacou em tarefas-chave como compreensão, geração e edição de imagens, superando vários modelos de linguagem visual de código aberto (VLM) principais atuais, como Qwen2.5-VL e InternVL-2.5.

O modelo BAGEL foi treinado com grandes volumes de dados multimodais intercalados, não apenas possuindo uma capacidade poderosa de transformar texto em imagens, mas também alcançando resultados comparáveis a geradores profissionais como o Stable Diffusion3 (SD3). Em tarefas complexas como edição de imagem, operações livres de forma, e síntese de multi-visão, o desempenho qualitativo do BAGEL supera significativamente os modelos existentes, revelando seu potencial em direções avançadas como "modelagem do mundo".

QQ20250526-093643.png

QQ20250526-093648.png

No que diz respeito à arquitetura técnica, o BAGEL utiliza uma estrutura híbrida chamada Mot (Mixture of Transformers), com dois codificadores independentes para capturar características pixelares e semânticas da imagem. Sua abordagem de treinamento segue a estratégia de "predição da próxima sequência de marcadores", permitindo um pré-treino e aprendizado supervisionado mais eficientes, resultando em um aumento gradual nas capacidades de compreensão e geração.

Para facilitar o uso pelos desenvolvedores, a ByteDance disponibilizou o modelo pré-treinado e os scripts de avaliação, além de documentação detalhada e uma interface Gradio WebUI, facilitando a implantação rápida e testes. Os usuários podem acessar todos os recursos no GitHub Pages.

A equipe de desenvolvimento incentiva a comunidade a participar ativamente na otimização do modelo e solicita feedback sobre o desempenho do modelo em cenários reais via GitHub Issues ou Discord. A ByteDance enfatiza que a continuidade aberta e colaborativa será essencial para o progresso do BAGEL.

Como um modelo multimodal integrado com capacidades de compreensão, geração e edição, o lançamento do BAGEL certamente oferece ferramentas mais poderosas aos pesquisadores e desenvolvedores de IA, marcando também uma nova fase prática e aberta para a inteligência artificial geral.