蚂蚁集团开源百灵大模型Ring-flash-linear-2.0-128K,专攻超长文本编程。采用混合线性注意力与稀疏MoE架构,仅激活6.1B参数即可媲美40B密集模型,在代码生成和智能代理领域达到最优表现,高效解决长上下文处理痛点。
蚂蚁百灵团队开源两款高效思考模型Ring-flash-linear-2.0和Ring-mini-linear-2.0,专为提升深度推理效率设计。同时发布FP8融合算子和线性Attention推理融合算子,支持“大参数、低激活”的高效推理与超长上下文。通过架构优化与高性能算子协同,实现显著性能提升。