A ByteDance lançou um modelo de base multimodal chamado BAGEL, que é de código aberto e possui 7 bilhões de parâmetros ativos, com uma quantidade total de parâmetros de 14 bilhões.

image.png

O BAGEL se destacou em testes-padrão de compreensão multimodal, superando alguns dos principais modelos de linguagem-visual open source atualmente disponíveis, como o Qwen2.5-VL e o InternVL-2.5. Além disso, sua qualidade de geração de imagem a partir de texto é comparável à de geradores profissionais poderosos como o SD3. O mais importante é que o BAGEL supera muitos modelos open source líderes em cenários clássicos de edição de imagens.

image.png

O BAGEL utiliza uma arquitetura chamada Misto de Transformadores Especialistas (MoT), projetada para maximizar a capacidade do modelo de aprender informações multimodais diversificadas. Ele usa dois codificadores independentes para capturar características pixelares e semânticas de imagens. O quadro geral do modelo segue a paradigma da "previsão do próximo grupo de marcadores", treinando-se para prever o próximo marcador de linguagem ou visual, com o objetivo de alcançar a compressão.

No processo de pré-treinamento, o BAGEL utilizou trilhões de marcadores multimodais intercalados provenientes de dados de linguagem, imagens, vídeos e web. Após treinamentos contínuos e ajustes supervisionados, o BAGEL superou modelos open source em testes-padrão de compreensão e geração, mostrando capacidades avançadas de contexto multimodal, como edição livre de imagens, previsão de frames futuros, operações tridimensionais e navegação no mundo.

Os pesquisadores descobriram que, à medida que o pré-treinamento do BAGEL aumentava, seu desempenho nas tarefas de compreensão, geração e edição continuava a melhorar. Diferentes habilidades surgiram em diferentes estágios do treinamento, com capacidades multimodais de compreensão e geração surgindo inicialmente, enquanto habilidades de edição inteligente mais complexas apareceram posteriormente.

Estudos demonstraram que combinar autoencriptadores variacionais (VAE) e transformadores visuais (ViT) melhorou significativamente as habilidades de edição inteligente, enfatizando a importância do contexto visual-semântico na inferência multimodal complexa.

Projeto: https://huggingface.co/ByteDance-Seed/BAGEL-7B-MoT

Fique de olho:

🌟 O BAGEL é um modelo de base multimodal open source com 7 bilhões de parâmetros ativos, superando diversos testes-padrão.

🖼️ O modelo se destaca em tarefas de geração e edição de imagens, permitindo edições livres de imagens e navegação no mundo.

📈 Com o pré-treinamento multimodal, o BAGEL demonstra melhorias contínuas no desempenho, adaptando-se a tarefas de inferência multimodal complexas.