阿里巴巴今日正式發佈QwenLong-L1-32B,這是一款專爲長上下文推理設計的大型語言模型,標誌着AI長文本處理能力的重大突破。該模型在性能表現上超越了o3-mini和Qwen3-235B-A22B,與Claude-3.7-Sonnet-Thinking達到相當水平。技術創新亮點QwenLong-L1-32B最大的技術突破在於其是全球首個通過強化學習訓練的長文本情境推理模型。該模型基於QwenLong-L1框架開發,採用了先進的GRPO(Group Relative Policy Optimization)和DAPO(Direct Alignment Policy Optimization)算法,結合基於規則和基於模型的混合獎勵函數,顯著提升了模型在
Aidy performs deep, persistent, and tailored research on policy, politics, and markets.
使用AI智能生成網站、博客或APP的隱私政策和服務條款
GlassTape Policy Builder是一個開源MCP服務器,可將自然語言安全需求轉換為經過驗證的Cerbos YAML策略,為AI代理和應用提供零信任護欄。