阿里突破性發布QwenLong-L1-32B:首個強化學習訓練的長文本推理模型,性能媲美Claude-3.7
阿里巴巴今日正式發佈QwenLong-L1-32B,這是一款專爲長上下文推理設計的大型語言模型,標誌着AI長文本處理能力的重大突破。該模型在性能表現上超越了o3-mini和Qwen3-235B-A22B,與Claude-3.7-Sonnet-Thinking達到相當水平。技術創新亮點QwenLong-L1-32B最大的技術突破在於其是全球首個通過強化學習訓練的長文本情境推理模型。該模型基於QwenLong-L1框架開發,採用了先進的GRPO(Group Relative Policy Optimization)和DAPO(Direct Alignment Policy Optimization)算法,結合基於規則和基於模型的混合獎勵函數,顯著提升了模型在