阿里巴巴今日正式发布QwenLong-L1-32B,这是一款专为长上下文推理设计的大型语言模型,标志着AI长文本处理能力的重大突破。该模型在性能表现上超越了o3-mini和Qwen3-235B-A22B,与Claude-3.7-Sonnet-Thinking达到相当水平。技术创新亮点QwenLong-L1-32B最大的技术突破在于其是全球首个通过强化学习训练的长文本情境推理模型。该模型基于QwenLong-L1框架开发,采用了先进的GRPO(Group Relative Policy Optimization)和DAPO(Direct Alignment Policy Optimization)算法,结合基于规则和基于模型的混合奖励函数,显著提升了模型在
Aidy performs deep, persistent, and tailored research on policy, politics, and markets.
使用AI智能生成网站、博客或APP的隐私政策和服务条款
GlassTape Policy Builder是一个开源MCP服务器,可将自然语言安全需求转换为经过验证的Cerbos YAML策略,为AI代理和应用提供零信任护栏。