No campo competitivo da inteligência artificial de hoje, a equipe Seed da ByteDance lançou oficialmente no dia 13 de maio seu mais recente modelo multimostral de grande escala, o Seed1.5-VL, com o objetivo de pavimentar o caminho para o avanço das tecnologias de agentes inteligentes. Esse modelo foi pré-treinado em mais de 3 trilhões de tokens de dados multimostrais, não apenas apresentando uma capacidade poderosa de entendimento e推理 múltiplos modos, mas também reduzindo significativamente os custos de inferência.
Comparado ao Gemini2.5Pro recentemente lançado pela Google, o Seed1.5-VL demonstra um desempenho semelhante. O Gemini2.5Pro da Google suporta a compreensão unificada de imagens, vídeos, áudio e código, liderando diversos testes de benchmarks sobre o GPT-4.0. A equipe Seed da ByteDance afirma que, apesar do Seed1.5-VL ter apenas 20 bilhões de parâmetros ativados, ele alcançou o melhor desempenho (SOTA) em 38 dos 60 benchmarks públicos testados, incluindo vitórias em 14 dos 19 benchmarks de vídeo e 3 das 7 tarefas de代理 gráficos (GUI).
No que diz respeito às habilidades específicas, o Seed1.5-VL exibe excelentes capacidades de raciocínio visual, perguntas e respostas de imagens e compreensão de vídeos. Em tarefas relacionadas a agentes inteligentes, o modelo alcançou resultados SOTA em 7 das tarefas de GUI. Além disso, o Seed1.5-VL simplifica a arquitetura, reduzindo a demanda computacional, tornando-o mais adequado para aplicativos interativos, capaz de realizar tarefas complexas, como coleta e processamento de informações, tanto em PCs quanto em dispositivos móveis.
No entanto, o Seed1.5-VL ainda enfrenta alguns desafios. Na percepção visual de granularidade fina, o modelo encontra dificuldades ao contar objetos, identificar diferenças em imagens e explicar relações espaciais complexas, especialmente ao lidar com arranjos irregulares, cores similares ou partes ocultas. Além disso, o modelo às vezes faz suposições infundadas ou fornece respostas incompletas em tarefas de推理 de alto nível, indicando espaço para melhoria nesses aspectos.
Apesar dessas limitações, o lançamento do Seed1.5-VL marca o progresso contínuo da ByteDance na área de tecnologia multimostral. O modelo já está disponível via API no Volcano Engine, permitindo que os usuários experimentem essa nova tecnologia diretamente.