Google DeepMind发布Gemini 3.1 Flash-Lite预览版,作为该系列速度最快、性价比最高的模型。它在保持每秒超360个token的极速输出和5.1秒平均响应时间的同时,智能水平显著提升。据评测,其得分较前代提高12分至34分,并在Arena.ai排行榜中以1432的Elo分数展现强大竞争力。
蚂蚁集团AI助手“灵光”上线4天,App Store中国区下载量破百万,登顶免费榜第六,速度超ChatGPT和Sora2。团队紧急扩容保障核心功能稳定。产品亮点:用户用自然语言30秒生成可编辑、可交互的小程序,支持3D、音视频等多模态输出,零门槛操作。
MiniMax发布新一代开源推理模型M2,专攻智能Agent应用。采用混合专家架构,总参数量2300亿,每次推理仅激活100亿参数,实现每秒100个token的高输出速度,在实时交互场景中优势显著。
谷歌更新Gemini系列模型,重点提升Gemini2.5Flash和Flash Lite的速度与效率。第三方评估显示,Gemini2.5Flash Lite成为“最快专有模型”,输出速度达每秒887个token,比前代提升40%。此次更新体现谷歌持续优化AI技术的决心。
Google
$0.49
Input tokens/M
$2.1
Output tokens/M
1k
Context Length
Xai
$1.4
$3.5
2k
Openai
$7.7
$30.8
200
$0.7
$2.8
Anthropic
$7
$35
$21
$105
Alibaba
-
$15.8
$12.7
64
Moonshot
$4
$16
256
Bytedance
$10.5
Tencent
$1
32
$0.35
400
magiccodingman
这是一个实验性的混合量化模型,采用MXFP4_MOE混合权重技术,在保持接近Q8精度的同时,实现了更小的文件大小和更高的推理速度。模型探索了MXFP4与高精度嵌入/输出权重的组合,在密集模型上取得了精度近乎无损的优化效果。
这是一个基于Qwen3 4B模型的混合量化版本,采用MXFP4_MOE混合权重技术,在保持近乎无损精度的同时实现了更小的文件大小和更高的推理速度。该模型通过精心组合MXFP4和高精度嵌入/输出权重,达到了接近Q8量化的精度水平,同时具备Q4-Q6级别的吞吐量。