O Laboratório de Inteligência Artificial de Xangai (XAI Lab) anunciou em 31 de agosto a liberação aberta do modelo multimostral grande Shuengen·Wanxiang InternVL3.5. Esse modelo alcançou uma melhoria abrangente nas capacidades de raciocínio, eficiência de implantação e generalidade por meio de inovações como o aprendizado por reforço em cascata (Cascade RL), roteamento da resolução visual dinâmica e arquitetura de implantação desacoplada. O InternVL3.5 disponibilizou versões completas dos modelos com parâmetros de 1B a 241B, estabelecendo um novo padrão de desempenho para modelos de código aberto, alcançando níveis líderes em diversos tarefas.
O modelo principal do InternVL3.5, o InternVL3.5-241B-A28B, obteve a maior pontuação entre os modelos de código aberto no benchmark de raciocínio interdisciplinar MMMU, com 77,7 pontos. Nos benchmarks de percepção multimostral MMStar e OCRBench, obteve respectivamente 77,9 pontos e 90,7 pontos, superando o GPT-5 (75,7 pontos/80,7 pontos). Nos benchmarks de raciocínio textual AIME25 e MMLU-Pro, atingiu 75,6 e 81,3 pontos, superando amplamente os modelos multimostrais de código aberto existentes. Com base no framework de aprendizado por reforço em cascata, o desempenho de raciocínio de toda a série de modelos aumentou em média 16,0 pontos em comparação com a geração anterior. Entre eles, o InternVL3.5-241B-A28B obteve um desempenho geral de raciocínio de 66,9 pontos, superando o 54,6 pontos do modelo anterior e o 53,9 pontos do Claude-3.7-Sonnet, destacando-se em tarefas complexas como raciocínio matemático e lógico.
Através da inovação no roteamento da resolução visual (ViR) e no framework de implantação desacoplado (DvD), o modelo de 38B viu sua velocidade de resposta aumentar significativamente na resolução de 896, com o tempo de latência de uma única inferência reduzido de 369ms para 91ms (aumento de cerca de 4 vezes). Ao mesmo tempo, o InternVL3.5-Flash, que é mais leve, manteve quase 100% do desempenho, mesmo reduzindo em 50% o comprimento da sequência visual.
O InternVL3.5 também aprimorou as capacidades centrais dos agentes inteligentes, incluindo agentes GUI, agentes corporificados, compreensão e geração de SVG. Em tarefas como localização GUI ScreenSpot (92,9 pontos), raciocínio espacial VSI-Bench (69,5 pontos) e compreensão de gráficos vetoriais SGP-Bench (70,6 pontos), superou os modelos de código aberto principais.
O InternVL3.5 oferece nove tamanhos de modelos, variando de 1 bilhão a 241 bilhões de parâmetros, cobrindo diferentes cenários de necessidades de recursos, incluindo modelos densos e modelos mistos de especialistas (MoE). É o primeiro modelo multimostral de código aberto a suportar a base do modelo de linguagem GPT-OSS. O site oficial fornece exemplos de código para executar o InternVL3.5-8B usando `transformers`, sendo possível implantar o modelo em uma única GPU A100. O modelo de 38B requer duas GPUs A100, enquanto o modelo de 235B precisa de oito GPUs A100.
O ms-swift já suporta o treinamento dos modelos da série InternVL3.5. O ms-swift é um framework de treinamento e implantação de grandes modelos e modelos multimostrais fornecido oficialmente pela comunidade ModelScope. Os usuários podem preparar seus dados em um formato específico para realizar ajuste fino em seus próprios conjuntos de dados. Após o treinamento, podem usar comandos apropriados para inferência e enviar o modelo para o ModelScope.
A lançamento do InternVL3.5 marca mais uma importante evolução na tecnologia de grandes modelos multimostrais, fornecendo ferramentas poderosas para pesquisadores e desenvolvedores, impulsionando o desenvolvimento da inteligência artificial multimostral.
Método de uso do código aberto/modelo:
https://github.com/OpenGVLab/InternVL
Conjunto de modelos:
https://www.modelscope.cn/collections/InternVL35-Full-3871e58bf21349
Experiência online:
https://chat.intern-ai.org.cn/