No tour de inovação AI FORCE LINK promovido pelo Volcano Engine em Xangai, a ByteDance lançou oficialmente o seu mais recente modelo multimodal visual-linguagem — Seed1.5-VL. Este modelo chamou a atenção por sua notável capacidade de compreensão e推理 multimodal geral, tornando-se o ponto focal do evento e despertando o interesse de muitos especialistas e desenvolvedores do setor.

O principal destaque do Seed1.5-VL é sua capacidade aprimorada de compreensão e推理 multimodal. Em comparação com versões anteriores, o Seed1.5-VL apresenta uma melhoria significativa na velocidade e precisão de posicionamento visual e推理. Além disso, com a adição das funções de compreensão de vídeo e agente multimodal inteligente, ele se destaca ainda mais ao lidar com tarefas complexas.

image.png

Alto desempenho com baixo custo

Apesar de ter apenas 20 bilhões de parâmetros ativados, o Seed1.5-VL já alcançou um desempenho equivalente ao do Gemini2.5Pro. Entre 60 benchmarks públicos, o Seed1.5-VL obteve resultados state-of-the-art (SOTA) em 38 tarefas, especialmente em compreensão de vídeo,推理 visual e capacidades de agente multimodal, mantendo-se à frente da indústria.

No que diz respeito aos custos de inferência, o Seed1.5-VL também se destacou, com um preço de entrada de apenas 0,003 yuan por mil tokens e um custo de saída de 0,009 yuan por mil tokens, proporcionando uma excelente relação custo-benefício.

image.png

Acesso fácil via API

Atualmente, o Seed1.5-VL está totalmente disponível para acesso via API no Volcano Engine. Os desenvolvedores podem rapidamente chamar suas capacidades logando-se e selecionando "Doubao-1.5-thinking-vision-pro", criando seus próprios assistentes visuais, sistemas de inspeção, agentes interativos ou próximas gerações de câmeras inteligentes.

Para validar o desempenho real do Seed1.5-VL, os jornalistas realizaram diversos testes. Ao enviar uma imagem de prateleira, o Seed1.5-VL identificou rapidamente produtos específicos e calculou seus preços. Em questões de raciocínio gráfico complexas de concursos públicos, o Seed1.5-VL demonstrou sua poderosa capacidade de推理, capturando e derivando padrões em poucos segundos para concluir tarefas lógicas difíceis.

O Seed1.5-VL, como o mais recente modelo multimodal da série Seed, foi pré-treinado em mais de 3T tokens de dados multimodais, mostrando excelentes resultados em tarefas como perguntas e respostas visuais, interpretação de gráficos e推理 visual. O modelo é composto por três componentes principais: módulo de codificação visual SeedViT, adaptador de perceptron multicamadas (MLP) para projeção de características visuais e um grande modelo de linguagem baseado na arquitetura MoE, denominado Seed1.5-LLM.

  • GitHub: https://github.com/ByteDance-Seed/Seed1.5-VL

  • https://seed.bytedance.com/zh/tech/seed1_5_vl