阿里雲發佈全新數學推理模型Qwen2.5-Math-PRM,7B 版本超越 GPT-4o
今天,阿里雲通義團隊正式發佈了全新的數學推理過程獎勵模型 Qwen2.5-Math-PRM。該模型提供了72B 和7B 兩種尺寸,性能表現均顯著優於同類的開源過程獎勵模型,尤其是在識別推理錯誤方面表現突出。Qwen2.5-Math-PRM 的7B 版本令人驚訝地超越了業界廣受歡迎的 GPT-4o,這一成就標誌着阿里雲在推理模型的研發上邁出了重要的一步。爲了全面評估模型在數學推理中的表現,通義團隊還開源了首個步驟級的評估標準 ——ProcessBench。這個評估標準涵蓋了3400個數學問題測試案例,其中還包括國際奧林匹