Con los continuos avances en la tecnología de IA, cómo permitir que los grandes modelos tengan la capacidad de "pensamiento paralelo" se ha convertido en un tema de interés para los investigadores. Recientemente, el Laboratorio de IA de Tencent se unió a un equipo de investigación de varias universidades para lanzar un nuevo marco de aprendizaje por refuerzo (RL) llamado Parallel-R1, con el objetivo de enseñar a los grandes modelos a explorar múltiples caminos de razonamiento simultáneamente. Este marco innovador abre nuevas ideas para enfrentar tareas complejas de razonamiento matemático.

Los métodos tradicionales suelen depender del ajuste fino supervisado (SFT), lo cual no solo requiere una alta calidad de datos, sino que también hace que los modelos imiten únicamente los datos existentes, careciendo de capacidad de aprendizaje autónomo y generalización. Para resolver estos problemas, surgió el marco Parallel-R1. La clave del descubrimiento del equipo de investigación es que utilizando simples indicaciones, se puede hacer que el modelo genere datos de pensamiento paralelo de alta calidad al resolver problemas matemáticos sencillos. Luego, mediante un modo de entrenamiento basado en "cursos progresivos", el modelo primero aprende la "estructura gramatical" del pensamiento paralelo desde tareas simples, y luego se transita gradualmente hacia problemas matemáticos más complejos para realizar el aprendizaje por refuerzo.

Además, el equipo propuso una estrategia alternativa de recompensa para abordar el problema del diseño de recompensas, equilibrando hábilmente la "precisión en la resolución de problemas" y la "diversidad del pensamiento". Durante el entrenamiento, la mayoría del tiempo el modelo recibe recompensas basadas en la precisión, y en una pequeña parte del tiempo recibe recompensas adicionales por usar el pensamiento paralelo. Esta estrategia mejoró significativamente la tasa de uso del pensamiento paralelo del modelo, logrando así mejoras notables en varios benchmarks matemáticos.
Los resultados experimentales muestran que el marco Parallel-R1 no solo mejoró en un 8,4% la precisión promedio del modelo en varios benchmarks matemáticos, sino que también logró un salto del 42,9% en las pruebas AIME25. Los investigadores descubrieron que, tras el entrenamiento, las estrategias de pensamiento del modelo pasaron gradualmente de una exploración "de amplio alcance" inicial a una "verificación precisa" posterior, demostrando claramente las ventajas del pensamiento paralelo.
El éxito de Parallel-R1 no solo abre una nueva dirección para la capacidad de razonamiento de los grandes modelos, sino que también proporciona nuevas ideas para la investigación futura en IA, mostrando el potencial del pensamiento paralelo para resolver tareas complejas.