深入分析TTFT、TPS等关键指标
Alibaba
-
输入tokens/百万
输出tokens/百万
上下文长度
$2.4
$12
8
$1.6
$10
Google
$1.05
$4.2
1k
Chatglm
magiccodingman
这是一个基于Qwen3-4B-Thinking-2507的密集模型实验性量化版本。它采用了创新的MXFP4混合量化技术,旨在探索通过组合不同精度的权重(如MXFP4与Q8_0、Q6_K等),在显著减小模型文件大小、提升推理速度(TPS)的同时,尽可能保持接近原始F16模型的精度。该项目展示了混合量化方法的潜力,但已被作者更新的版本所取代。