Com o avanço constante das tecnologias de IA, tornou-se um tópico quente de interesse para os pesquisadores como fazer com que modelos grandes tenham a capacidade de "pensamento paralelo". Recentemente, o Laboratório de IA da Tencent, em colaboração com equipes de várias universidades, lançou um novo framework de aprendizado por reforço (RL) chamado Parallel-R1, com o objetivo de ensinar aos modelos grandes a explorar múltiplos caminhos de raciocínio ao mesmo tempo. Este framework inovador abre novas possibilidades para lidar com tarefas complexas de raciocínio matemático.
Métodos tradicionais geralmente dependem de ajuste fino supervisionado (SFT), uma abordagem que exige uma qualidade muito alta nos dados e normalmente faz com que os modelos apenas imitem dados existentes, carecendo de capacidade de aprendizado autônomo e generalização. Para resolver esses problemas, surgiu o framework Parallel-R1. A descoberta-chave da equipe de pesquisa é que, utilizando dicas simples, os modelos podem gerar dados de pensamento paralelo de alta qualidade ao resolver problemas matemáticos simples. Em seguida, por meio de um modelo de treinamento chamado "curso progressivo", os modelos aprendem inicialmente a "estrutura gramatical" do pensamento paralelo com tarefas simples, e depois transicionam gradualmente para problemas matemáticos mais complexos para realizar o aprendizado por reforço.
Além disso, a equipe também propôs uma estratégia de recompensa alternada para lidar com o problema de design de recompensa, equilibrando habilmente a "precisão na resolução de problemas" e a "diversidade no pensamento". Durante o treinamento, o modelo recebe principalmente recompensas baseadas na precisão, mas em parte do tempo também recebe recompensas adicionais pelo uso do pensamento paralelo. Essa estratégia aumentou significativamente a taxa de uso do pensamento paralelo pelo modelo, resultando em melhorias notáveis em vários testes matemáticos.
Os resultados experimentais mostraram que o framework Parallel-R1 não apenas elevou a precisão média dos modelos em até 8,4% em diversos benchmarks matemáticos, mas também conseguiu um salto de desempenho de 42,9% no teste AIME25. Os pesquisadores descobriram que, após o treinamento, as estratégias de pensamento do modelo se transformaram gradualmente de uma exploração "de rede larga" no início para uma "verificação precisa" no final, demonstrando plenamente as vantagens do pensamento paralelo.
O sucesso do Parallel-R1 não apenas abre uma nova direção para a capacidade de raciocínio dos modelos grandes, mas também fornece novas ideias para pesquisas futuras em IA, revelando o potencial do pensamento paralelo na resolução de tarefas complexas.