国产AI芯片与大模型协同优化取得重要进展。摩尔线程与硅基流动基于国产GPU MTT S5000,成功完成对千亿参数大模型DeepSeek V3 671B的深度适配。通过应用FP8低精度推理技术,实现单卡预填充吞吐量超4000 tokens/秒,解码吞吐量超1000 tokens/秒,推理速度已接近国际主流高端AI加速器水平。
蚂蚁集团开源万亿参数大模型Ling-1T,采用FP8低精度训练,为当前最大基座模型。该模型由"百灵"团队开发,属于Ling2.0家族,包含Ling、Ring、Ming三大系列。其中Ling系列专注通用任务,强调速度与效率优势。
智谱发布GLM-4.6模型,采用寒武纪国产芯片,首次实现FP8+Int4混合量化部署。该技术突破在保持模型精度的同时显著降低推理成本,为国产芯片支持大模型本地化运行开辟新路径。
蚂蚁百灵团队开源两款高效思考模型Ring-flash-linear-2.0和Ring-mini-linear-2.0,专为提升深度推理效率设计。同时发布FP8融合算子和线性Attention推理融合算子,支持“大参数、低激活”的高效推理与超长上下文。通过架构优化与高性能算子协同,实现显著性能提升。
DeepGEMM是一个用于高效FP8矩阵乘法的CUDA库,支持细粒度缩放和多种优化技术。
Alibaba
-
输入tokens/百万
输出tokens/百万
上下文长度
Tencent
$6
$18
256
Chatglm
128
T5B
Z-Image-Turbo 是经过 FP8 E5M2 和 E4M3FN 格式量化的图像处理模型,基于原始 Tongyi-MAI/Z-Image-Turbo 模型优化,在保持性能的同时显著减少模型大小和推理资源需求。
silveroxides
基于 black-forest-labs/FLUX.2-dev 的优化版本图像生成模型,支持图像到图像的生成和编辑任务,采用 fp8_scaled 量化技术提升推理速度,特别适合在低显存 GPU 上使用。
kyr0
这是一个专为苹果硅芯片设备优化的自动语音识别模型,通过转换为MLX框架并量化为FP8格式,实现在苹果设备上的快速端上语音转录。该模型针对逐字精度进行微调,特别适用于需要高精度转录的场景。
mratsim
GLM-4.5-Iceblink-v2-106B-A12B-FP8是基于GLM-4.5-Iceblink-v2-106B-A12B模型,采用最先进的混合专家量化方法进行FP8量化的版本。该模型专门针对支持硬件FP8的Ada、Hopper或Blackwell系列GPU优化,在保持高质量输出的同时显著提升推理效率。
Qwen
Qwen3-VL-2B-Instruct-FP8是Qwen系列中最强大的视觉语言模型的FP8量化版本,采用块大小为128的细粒度fp8量化,性能与原始BF16模型几乎相同。该模型具备卓越的文本理解和生成能力、深入的视觉感知与推理能力、长上下文支持以及增强的空间和视频动态理解能力。
Qwen3-VL-32B-Instruct-FP8是Qwen系列中最强大的视觉语言模型的FP8量化版本,采用块大小为128的细粒度fp8量化,性能指标与原始BF16模型几乎相同。该模型具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持以及强大的空间和视频动态理解能力。
Qwen3-VL-32B-Thinking-FP8是Qwen系列中最强大的视觉语言模型的FP8量化版本,采用块大小为128的细粒度fp8量化技术,性能指标与原始BF16模型几乎相同。该模型具备出色的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持以及强大的智能体交互能力。
RedHatAI
这是Meta Llama-3.1-8B-Instruct模型的FP8量化版本,通过对权重和激活值进行FP8量化,显著减少了磁盘大小和GPU内存需求,同时保持了良好的模型性能。
allenai
olmOCR-2-7B-1025的FP8量化版本,基于Qwen2.5-VL-7B-Instruct微调而来,专门用于处理数学方程、表格等复杂OCR场景的视觉语言模型。
Qwen3-VL-30B-A3B-Thinking-FP8是通义系列中最强大的视觉语言模型的FP8量化版本,采用块大小为128的细粒度fp8量化,性能指标与原始BF16模型几乎相同。该模型具备卓越的文本理解与生成能力、深入的视觉感知与推理能力,支持长上下文和视频理解。
Qwen3-VL-30B-A3B-Instruct-FP8是通义系列中最强大的视觉语言模型的FP8量化版本,采用块大小为128的细粒度FP8量化,性能与原始BF16模型几乎相同。该模型具备卓越的文本理解和生成能力、深入的视觉感知和推理能力、长上下文支持以及强大的智能体交互能力。
Qwen3-VL-235B-A22B-Thinking-FP8是通义系列中最强大的视觉语言模型的FP8量化版本,采用块大小为128的细粒度fp8量化,性能指标与原始BF16模型几乎相同。该模型具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持以及强大的智能体交互能力。
Qwen3-VL-235B-A22B-Instruct-FP8是通义系列中最强大的视觉语言模型的FP8量化版本,采用块大小为128的细粒度fp8量化,性能与原始BF16模型几乎相同。该模型具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持以及强大的空间和视频动态理解能力。
ibm-granite
Granite 4.0 H-Small (FP8) 是IBM开发的Granite系列语言模型的小型FP8量化版本,专为提供专业、准确和安全的回复而设计。该模型采用FP8精度格式,在保持性能的同时优化了推理效率。
这是NVIDIA-Nemotron-Nano-9B-v2模型的FP8动态量化版本,通过将权重和激活量化为FP8数据类型实现优化,显著减少磁盘大小和GPU内存需求约50%,同时保持出色的文本生成性能。
这是Qwen3-VL-235B-A22B-Instruct的量化版本,通过将权重和激活值量化为FP8数据类型,有效减少了磁盘大小和GPU内存需求约50%。支持文本、图像和视频输入,输出文本,适用于多种自然语言处理和多模态任务。
Qwen3-VL-235B-A22B-Instruct-FP8-dynamic 是 Qwen3-VL-235B-A22B-Instruct 的量化版本,通过将权重和激活量化为 FP8 数据类型,显著减少了磁盘大小和 GPU 内存需求,同时保持了较高的模型性能。
TheClusterDev
这是Qwen3-Next-80B-A3B-Instruct模型的FP8量化版本,通过vLLM框架支持,在保持模型质量的同时显著减小了模型体积,提升了推理效率。
nvidia
这是NVIDIA对阿里巴巴Qwen3-14B模型进行FP8量化后的版本,采用优化的Transformer架构,支持131K上下文长度,适用于多种AI应用场景。
NVIDIA Qwen3-8B FP8 是阿里巴巴Qwen3-8B模型的量化版本,采用优化的Transformer架构,属于自回归语言模型。该模型通过FP8量化技术优化,可在NVIDIA GPU上实现高效推理,支持商业和非商业用途。