蚂蚁百灵团队开源两款高效思考模型Ring-flash-linear-2.0和Ring-mini-linear-2.0,专为提升深度推理效率设计。同时发布FP8融合算子和线性Attention推理融合算子,支持“大参数、低激活”的高效推理与超长上下文。通过架构优化与高性能算子协同,实现显著性能提升。
Minimax
$1
输入tokens/百万
$8
输出tokens/百万
128
上下文长度