Recentemente, a Kuaizhi Wanyi lançou oficialmente seu novo modelo de código aberto Skywork-R1V3.0, alegando ter atingido um nível sem precedentes em raciocínio multimodal, comparável ao nível de especialistas juniores humanos. Durante o processo de treinamento, o modelo adotou uma estratégia de aprendizado por reforço, obtendo avanços significativos em modelagem lógica complexa e generalização do conhecimento interdisciplinar.

O Skywork-R1V3.0 foi "bootstrapped" com base na geração anterior Skywork-R1V2.0, usando dados de distilado de alta qualidade e técnicas de amostragem de rejeição para construir com sucesso um conjunto de treinamento poderoso para raciocínio multimodal. O design deste modelo não se limita apenas ao texto, mas também inclui processamento de imagem, melhorando significativamente sua capacidade de raciocínio entre imagens e textos.

image.png

Segundo a introdução, o treinamento do Skywork-R1V3.0 depende apenas de cerca de 12.000 amostras de ajuste fino supervisionado e 13.000 amostras de aprendizado por reforço, demonstrando a vantagem única de "pequenos dados acionando grandes capacidades". Na avaliação multimodal abrangente autoritária MMMU, o Skywork-R1V3.0 obteve 76,0 pontos, liderando sobre modelos fechados como Claude-3.7-Sonnet (75,0) e GPT-4.5 (74,4), provando sua excelente capacidade de compreensão multimostral.

Nas cenários de aplicação específicos, o Skywork-R1V3.0 mostrou desempenho excelente em vários campos como física, lógica e raciocínio matemático. Por exemplo, na avaliação de raciocínio físico, o modelo alcançou os melhores resultados abertos de 52,8 e 31,5, demonstrando sua capacidade de entender problemas físicos complexos. Além disso, no teste de raciocínio lógico, o Skywork-R1V3.0 também obteve uma pontuação excelente de 59,7.

image.png

O modelo também é formidável no raciocínio matemático, obtendo pontuações excelentes de 77,1, 59,6 e 52,6 em avaliações como MathVista, MathVerse e MathVision, superando significativamente outros modelos de código aberto. Esses desempenhos notáveis tornam o Skywork-R1V3.0 um forte concorrente no campo atual de raciocínio multimodal de código aberto.

image.png

O lançamento do Skywork-R1V3.0 marca um novo pico na tecnologia de raciocínio multimodal. Sua performance poderosa e natureza de código aberto irão greatly promover o desenvolvimento futuro da tecnologia de IA.