El equipo de Alibaba Qwen publicó recientemente un artículo titulado "Lecciones aprendidas en el desarrollo de modelos de recompensa de proceso en el razonamiento matemático", y lanzó dos nuevos modelos de la serie Qwen2.5-Math-PRM, con 7B y 72B parámetros respectivamente. Estos modelos superan las limitaciones del marco PRM existente en el razonamiento matemático, mejorando significativamente la precisión y la capacidad de generalización de los modelos de razonamiento mediante técnicas innovadoras.

El razonamiento matemático siempre ha sido un desafío importante para los grandes modelos de lenguaje (LLM), especialmente en los pasos de razonamiento intermedios, donde los errores a menudo afectan la precisión de la salida final. Esto es especialmente problemático en campos como la educación y el cálculo científico, que requieren una alta precisión. Los métodos de evaluación tradicionales, como la estrategia Best-of-N (BoN), no pueden capturar completamente la complejidad del proceso de razonamiento. Por lo tanto, surge el modelo de recompensa de proceso (PRM), que busca proporcionar una supervisión más detallada mediante la evaluación de la corrección de los pasos intermedios.

Sin embargo, la construcción de un PRM eficiente enfrenta desafíos en la anotación de datos y los métodos de evaluación, que son problemas que los modelos existentes no han podido resolver completamente. Por lo tanto, se necesita un modelo más acorde con el razonamiento robusto y basado en procesos.

QQ20250116-104124.png

El método innovador del equipo de Qwen combina la estimación de Monte Carlo (MC) y el mecanismo de "LLM como juez". Este método híbrido mejora la calidad de las anotaciones paso a paso, permitiendo que el PRM identifique y mitigue los errores en el razonamiento matemático de manera más eficaz. Gracias a esta tecnología, los modelos de la serie Qwen2.5-Math-PRM destacan en pruebas de referencia como PROCESSBENCH, especialmente en la capacidad de detectar errores de razonamiento intermedios.

Filtrado por consenso: Los datos solo se conservan cuando la estimación de MC y el LLM como juez coinciden en la corrección del paso, reduciendo significativamente el ruido en el entrenamiento. Etiquetado rígido: Las etiquetas deterministas verificadas por el doble mecanismo mejoran la capacidad del modelo para distinguir entre pasos de razonamiento válidos e inválidos. Utilización eficiente de datos: La estrategia de filtrado por consenso que combina la estimación de MC con el LLM como juez asegura datos de alta calidad y mantiene la escalabilidad.

Estas innovaciones ayudan a los modelos Qwen2.5-Math-PRM a mejorar no solo la precisión, sino también su rendimiento en aplicaciones como la tutoría automática y la resolución de problemas complejos.

La serie Qwen2.5-Math-PRM muestra un rendimiento excelente en varios indicadores de evaluación. Por ejemplo, el modelo Qwen2.5-Math-PRM-72B alcanza una puntuación F1 de hasta el 78.3%, superando a muchas alternativas de código abierto. En particular, supera a modelos propietarios como GPT-4-0806 en tareas que requieren la identificación gradual de errores.

El mecanismo de filtrado por consenso reduce el ruido de los datos en aproximadamente un 60%, mejorando significativamente la calidad de los datos de entrenamiento. Además, Qwen2.5-Math-PRM enfatiza la evaluación paso a paso, en lugar de la estrategia BoN tradicional basada en resultados, lo que resuelve el problema de que los modelos anteriores a menudo dependían demasiado de la respuesta final y pasaban por alto la precisión del razonamiento.

El lanzamiento de la serie Qwen2.5-Math-PRM marca un gran avance en el campo del razonamiento matemático. Al resolver los problemas en el desarrollo de PRM, como el ruido en la anotación de datos y el sesgo del proceso al resultado, el equipo de Qwen proporciona un marco práctico para mejorar la precisión y la fiabilidad del razonamiento. Con el desarrollo continuo de esta tecnología, se espera que los modelos PRM desempeñen un papel más importante en una gama más amplia de aplicaciones de IA, mejorando la fiabilidad y la eficacia de los sistemas de razonamiento automático.