Kunlun Wildfire Lança Skywork-R1V 3.0: Capacidades de Raciocínio Multimodal Aproximando-se das de Especialistas Humanos!

AIbase基地

Publicado emNotícias e Informações de IA · 4 minutos de leitura · Jul 9, 2025

19.6k

Recentemente, a Kuaizhi Wanyi lançou oficialmente seu novo modelo de código aberto Skywork-R1V3.0, alegando ter atingido um nível sem precedentes em raciocínio multimodal, comparável ao nível de especialistas juniores humanos. Durante o processo de treinamento, o modelo adotou uma estratégia de aprendizado por reforço, obtendo avanços significativos em modelagem lógica complexa e generalização do conhecimento interdisciplinar.

O Skywork-R1V3.0 foi "bootstrapped" com base na geração anterior Skywork-R1V2.0, usando dados de distilado de alta qualidade e técnicas de amostragem de rejeição para construir com sucesso um conjunto de treinamento poderoso para raciocínio multimodal. O design deste modelo não se limita apenas ao texto, mas também inclui processamento de imagem, melhorando significativamente sua capacidade de raciocínio entre imagens e textos.

Segundo a introdução, o treinamento do Skywork-R1V3.0 depende apenas de cerca de 12.000 amostras de ajuste fino supervisionado e 13.000 amostras de aprendizado por reforço, demonstrando a vantagem única de "pequenos dados acionando grandes capacidades". Na avaliação multimodal abrangente autoritária MMMU, o Skywork-R1V3.0 obteve 76,0 pontos, liderando sobre modelos fechados como Claude-3.7-Sonnet (75,0) e GPT-4.5 (74,4), provando sua excelente capacidade de compreensão multimostral.

Nas cenários de aplicação específicos, o Skywork-R1V3.0 mostrou desempenho excelente em vários campos como física, lógica e raciocínio matemático. Por exemplo, na avaliação de raciocínio físico, o modelo alcançou os melhores resultados abertos de 52,8 e 31,5, demonstrando sua capacidade de entender problemas físicos complexos. Além disso, no teste de raciocínio lógico, o Skywork-R1V3.0 também obteve uma pontuação excelente de 59,7.

O modelo também é formidável no raciocínio matemático, obtendo pontuações excelentes de 77,1, 59,6 e 52,6 em avaliações como MathVista, MathVerse e MathVision, superando significativamente outros modelos de código aberto. Esses desempenhos notáveis tornam o Skywork-R1V3.0 um forte concorrente no campo atual de raciocínio multimodal de código aberto.

O lançamento do Skywork-R1V3.0 marca um novo pico na tecnologia de raciocínio multimodal. Sua performance poderosa e natureza de código aberto irão greatly promover o desenvolvimento futuro da tecnologia de IA.

Este artigo é do AIbase Daily

Bem-vindo à coluna [AI Daily]! Este é o seu guia para explorar o mundo da inteligência artificial todos os dias. Todos os dias apresentamos os destaques da área de IA, com foco nos desenvolvedores, para o ajudar a obter insights sobre as tendências tecnológicas e a compreender as aplicações inovadoras de produtos de IA.

—— Criado pelo Grupo AIbase Daily

Product Finder

Product Submit

AI Models Finder

MCP Servers

MCP Client

MCP Inspector

Case Tutorials

Latest AI News

AI Daily Brief

Kunlun Wildfire Lança Skywork-R1V 3.0: Capacidades de Raciocínio Multimodal Aproximando-se das de Especialistas Humanos!

AIbase基地

Este artigo é do AIbase Daily