國產AI芯片與大模型協同優化取得重要進展。摩爾線程與硅基流動基於國產GPU MTT S5000,成功完成對千億參數大模型DeepSeek V3 671B的深度適配。通過應用FP8低精度推理技術,實現單卡預填充吞吐量超4000 tokens/秒,解碼吞吐量超1000 tokens/秒,推理速度已接近國際主流高端AI加速器水平。
螞蟻集團開源萬億參數大模型Ling-1T,採用FP8低精度訓練,爲當前最大基座模型。該模型由"百靈"團隊開發,屬於Ling2.0家族,包含Ling、Ring、Ming三大系列。其中Ling系列專注通用任務,強調速度與效率優勢。
智譜發佈GLM-4.6模型,採用寒武紀國產芯片,首次實現FP8+Int4混合量化部署。該技術突破在保持模型精度的同時顯著降低推理成本,爲國產芯片支持大模型本地化運行開闢新路徑。
螞蟻百靈團隊開源兩款高效思考模型Ring-flash-linear-2.0和Ring-mini-linear-2.0,專爲提升深度推理效率設計。同時發佈FP8融合算子和線性Attention推理融合算子,支持“大參數、低激活”的高效推理與超長上下文。通過架構優化與高性能算子協同,實現顯著性能提升。
DeepGEMM是一個用於高效FP8矩陣乘法的CUDA庫,支持細粒度縮放和多種優化技術。
Alibaba
-
輸入tokens/百萬
輸出tokens/百萬
上下文長度
Tencent
$6
$18
256
Chatglm
128
T5B
Z-Image-Turbo 是經過 FP8 E5M2 和 E4M3FN 格式量化的圖像處理模型,基於原始 Tongyi-MAI/Z-Image-Turbo 模型優化,在保持性能的同時顯著減少模型大小和推理資源需求。
silveroxides
基於 black-forest-labs/FLUX.2-dev 的優化版本圖像生成模型,支持圖像到圖像的生成和編輯任務,採用 fp8_scaled 量化技術提升推理速度,特別適合在低顯存 GPU 上使用。
kyr0
這是一個專為蘋果硅芯片設備優化的自動語音識別模型,通過轉換為MLX框架並量化為FP8格式,實現在蘋果設備上的快速端上語音轉錄。該模型針對逐字精度進行微調,特別適用於需要高精度轉錄的場景。
mratsim
GLM-4.5-Iceblink-v2-106B-A12B-FP8是基於GLM-4.5-Iceblink-v2-106B-A12B模型,採用最先進的混合專家量化方法進行FP8量化的版本。該模型專門針對支持硬件FP8的Ada、Hopper或Blackwell系列GPU優化,在保持高質量輸出的同時顯著提升推理效率。
Qwen
Qwen3-VL-2B-Instruct-FP8是Qwen系列中最強大的視覺語言模型的FP8量化版本,採用塊大小為128的細粒度fp8量化,性能與原始BF16模型幾乎相同。該模型具備卓越的文本理解和生成能力、深入的視覺感知與推理能力、長上下文支持以及增強的空間和視頻動態理解能力。
Qwen3-VL-32B-Instruct-FP8是Qwen系列中最強大的視覺語言模型的FP8量化版本,採用塊大小為128的細粒度fp8量化,性能指標與原始BF16模型幾乎相同。該模型具備卓越的文本理解與生成能力、深入的視覺感知與推理能力、長上下文支持以及強大的空間和視頻動態理解能力。
Qwen3-VL-32B-Thinking-FP8是Qwen系列中最強大的視覺語言模型的FP8量化版本,採用塊大小為128的細粒度fp8量化技術,性能指標與原始BF16模型幾乎相同。該模型具備出色的文本理解與生成能力、深入的視覺感知與推理能力、長上下文支持以及強大的智能體交互能力。
RedHatAI
這是Meta Llama-3.1-8B-Instruct模型的FP8量化版本,通過對權重和激活值進行FP8量化,顯著減少了磁盤大小和GPU內存需求,同時保持了良好的模型性能。
allenai
olmOCR-2-7B-1025的FP8量化版本,基於Qwen2.5-VL-7B-Instruct微調而來,專門用於處理數學方程、表格等複雜OCR場景的視覺語言模型。
Qwen3-VL-30B-A3B-Thinking-FP8是通義系列中最強大的視覺語言模型的FP8量化版本,採用塊大小為128的細粒度fp8量化,性能指標與原始BF16模型幾乎相同。該模型具備卓越的文本理解與生成能力、深入的視覺感知與推理能力,支持長上下文和視頻理解。
Qwen3-VL-30B-A3B-Instruct-FP8是通義系列中最強大的視覺語言模型的FP8量化版本,採用塊大小為128的細粒度FP8量化,性能與原始BF16模型幾乎相同。該模型具備卓越的文本理解和生成能力、深入的視覺感知和推理能力、長上下文支持以及強大的智能體交互能力。
Qwen3-VL-235B-A22B-Thinking-FP8是通義系列中最強大的視覺語言模型的FP8量化版本,採用塊大小為128的細粒度fp8量化,性能指標與原始BF16模型幾乎相同。該模型具備卓越的文本理解與生成能力、深入的視覺感知與推理能力、長上下文支持以及強大的智能體交互能力。
Qwen3-VL-235B-A22B-Instruct-FP8是通義系列中最強大的視覺語言模型的FP8量化版本,採用塊大小為128的細粒度fp8量化,性能與原始BF16模型幾乎相同。該模型具備卓越的文本理解與生成能力、深入的視覺感知與推理能力、長上下文支持以及強大的空間和視頻動態理解能力。
ibm-granite
Granite 4.0 H-Small (FP8) 是IBM開發的Granite系列語言模型的小型FP8量化版本,專為提供專業、準確和安全的回覆而設計。該模型採用FP8精度格式,在保持性能的同時優化了推理效率。
這是NVIDIA-Nemotron-Nano-9B-v2模型的FP8動態量化版本,通過將權重和激活量化為FP8數據類型實現優化,顯著減少磁盤大小和GPU內存需求約50%,同時保持出色的文本生成性能。
這是Qwen3-VL-235B-A22B-Instruct的量化版本,通過將權重和激活值量化為FP8數據類型,有效減少了磁盤大小和GPU內存需求約50%。支持文本、圖像和視頻輸入,輸出文本,適用於多種自然語言處理和多模態任務。
Qwen3-VL-235B-A22B-Instruct-FP8-dynamic 是 Qwen3-VL-235B-A22B-Instruct 的量化版本,通過將權重和激活量化為 FP8 數據類型,顯著減少了磁盤大小和 GPU 內存需求,同時保持了較高的模型性能。
TheClusterDev
這是Qwen3-Next-80B-A3B-Instruct模型的FP8量化版本,通過vLLM框架支持,在保持模型質量的同時顯著減小了模型體積,提升了推理效率。
nvidia
這是NVIDIA對阿里巴巴Qwen3-14B模型進行FP8量化後的版本,採用優化的Transformer架構,支持131K上下文長度,適用於多種AI應用場景。
NVIDIA Qwen3-8B FP8 是阿里巴巴Qwen3-8B模型的量化版本,採用優化的Transformer架構,屬於自迴歸語言模型。該模型通過FP8量化技術優化,可在NVIDIA GPU上實現高效推理,支持商業和非商業用途。