Em 13 de abril, a equipe Kunlun Wanwei Tiangong anunciou o lançamento de uma versão aprimorada do modelo Skywork-OR1 (Open Reasoner 1), a mais recente conquista após o lançamento do primeiro grande modelo de raciocínio lógico chinês, Skywork-o1, em fevereiro de 2025. Este modelo apresenta desempenho de raciocínio líder do setor com o mesmo tamanho de parâmetros, superando os limites anteriores da compreensão lógica e da resolução de tarefas complexas em grandes modelos.

Os modelos da série Skywork-OR1 de código aberto incluem três modelos de alto desempenho: Skywork-OR1-Math-7B, um modelo especializado em matemática com forte capacidade de codificação; Skywork-OR1-7B-Preview, que combina matemática e codificação, com versatilidade e especialização; e Skywork-OR1-32B-Preview, uma versão principal para tarefas mais complexas com capacidade de raciocínio aprimorada.

微信截图_20250414084641.png

Em tarefas de programação competitiva, os modelos gerais Skywork-OR1-7B-Preview e Skywork-OR1-32B-Preview alcançaram o melhor desempenho em seu tamanho de parâmetros no conjunto de dados LiveCodeBench. O Skywork-OR1-32B-Preview se destacou, com sua capacidade de geração de código e resolução de problemas se aproximando da DeepSeek-R1 (com 671B de parâmetros), oferecendo uma excelente relação custo-benefício com uma redução significativa no tamanho do modelo, demonstrando a tecnologia avançada da equipe Tiangong.

A notável melhoria no desempenho da série de modelos Skywork-OR1 é resultado do longo acúmulo de pesquisa e desenvolvimento da equipe Tiangong na fase de treinamento posterior do modelo. Na seleção e pré-processamento de dados, o Skywork-OR1 construiu um conjunto de dados de matemática e código de alta qualidade para aprendizado por reforço, melhorando a capacidade de raciocínio do modelo nessas áreas. A equipe realizou uma seleção inicial de dados com base em três critérios: verificabilidade, precisão e desafio, descartando problemas de prova não verificáveis automaticamente, problemas incorretos e problemas de código sem testes unitários. Na filtragem de dados, para evitar que o fenômeno de "todos corretos" ou "todos incorretos" torne o aprendizado de estratégias ineficaz, cada problema foi submetido a várias rodadas de amostragem e verificação de respostas, e os problemas com dificuldade extrema foram filtrados com base no desempenho do modelo.

Além disso, o Skywork-OR1 utiliza o Group Relative Policy Optimization (GRPO) para treinamento de modelos e introduz várias medidas de otimização, incluindo otimização de dados de treinamento, otimização de pipeline de treinamento, exploração de modelos durante o treinamento e otimização de perda de treinamento.

Endereço de código aberto da série Skywork-OR1: https://github.com/SkyworkAI/Skywork-OR1