螞蟻集團百靈大模型今日開源Ling-2.6-flash,推出BF16、FP8、INT4等多量化版本,降低AI部署門檻。該模型總參數104B,激活參數7.4B,此前以匿名身份在國際評測平臺表現優異,並針對中英文切換與代碼生成完成多輪優化。
螞蟻集團百靈大模型系列更新,Ling-2.6-flash正式開放。該模型總參數104B,激活參數7.4B,提供BF16、FP8、INT4等多精度版本,適配不同硬件環境並降低部署門檻。此前以“Elephant Alpha”匿名在OpenRouter平臺測試。
國產AI芯片與大模型協同優化取得重要進展。摩爾線程與硅基流動基於國產GPU MTT S5000,成功完成對千億參數大模型DeepSeek V3 671B的深度適配。通過應用FP8低精度推理技術,實現單卡預填充吞吐量超4000 tokens/秒,解碼吞吐量超1000 tokens/秒,推理速度已接近國際主流高端AI加速器水平。
螞蟻集團開源萬億參數大模型Ling-1T,採用FP8低精度訓練,爲當前最大基座模型。該模型由"百靈"團隊開發,屬於Ling2.0家族,包含Ling、Ring、Ming三大系列。其中Ling系列專注通用任務,強調速度與效率優勢。
DeepGEMM是一個用於高效FP8矩陣乘法的CUDA庫,支持細粒度縮放和多種優化技術。
Alibaba
-
輸入tokens/百萬
輸出tokens/百萬
上下文長度
Tencent
$6
$18
256
Chatglm
128
T5B
Z-Image-Turbo 是經過 FP8 E5M2 和 E4M3FN 格式量化的圖像處理模型,基於原始 Tongyi-MAI/Z-Image-Turbo 模型優化,在保持性能的同時顯著減少模型大小和推理資源需求。
silveroxides
基於 black-forest-labs/FLUX.2-dev 的優化版本圖像生成模型,支持圖像到圖像的生成和編輯任務,採用 fp8_scaled 量化技術提升推理速度,特別適合在低顯存 GPU 上使用。
kyr0
這是一個專為蘋果硅芯片設備優化的自動語音識別模型,通過轉換為MLX框架並量化為FP8格式,實現在蘋果設備上的快速端上語音轉錄。該模型針對逐字精度進行微調,特別適用於需要高精度轉錄的場景。
mratsim
GLM-4.5-Iceblink-v2-106B-A12B-FP8是基於GLM-4.5-Iceblink-v2-106B-A12B模型,採用最先進的混合專家量化方法進行FP8量化的版本。該模型專門針對支持硬件FP8的Ada、Hopper或Blackwell系列GPU優化,在保持高質量輸出的同時顯著提升推理效率。
Qwen
Qwen3-VL-2B-Instruct-FP8是Qwen系列中最強大的視覺語言模型的FP8量化版本,採用塊大小為128的細粒度fp8量化,性能與原始BF16模型幾乎相同。該模型具備卓越的文本理解和生成能力、深入的視覺感知與推理能力、長上下文支持以及增強的空間和視頻動態理解能力。
Qwen3-VL-32B-Instruct-FP8是Qwen系列中最強大的視覺語言模型的FP8量化版本,採用塊大小為128的細粒度fp8量化,性能指標與原始BF16模型幾乎相同。該模型具備卓越的文本理解與生成能力、深入的視覺感知與推理能力、長上下文支持以及強大的空間和視頻動態理解能力。
Qwen3-VL-32B-Thinking-FP8是Qwen系列中最強大的視覺語言模型的FP8量化版本,採用塊大小為128的細粒度fp8量化技術,性能指標與原始BF16模型幾乎相同。該模型具備出色的文本理解與生成能力、深入的視覺感知與推理能力、長上下文支持以及強大的智能體交互能力。
RedHatAI
這是Meta Llama-3.1-8B-Instruct模型的FP8量化版本,通過對權重和激活值進行FP8量化,顯著減少了磁盤大小和GPU內存需求,同時保持了良好的模型性能。
allenai
olmOCR-2-7B-1025的FP8量化版本,基於Qwen2.5-VL-7B-Instruct微調而來,專門用於處理數學方程、表格等複雜OCR場景的視覺語言模型。
Qwen3-VL-30B-A3B-Thinking-FP8是通義系列中最強大的視覺語言模型的FP8量化版本,採用塊大小為128的細粒度fp8量化,性能指標與原始BF16模型幾乎相同。該模型具備卓越的文本理解與生成能力、深入的視覺感知與推理能力,支持長上下文和視頻理解。
Qwen3-VL-30B-A3B-Instruct-FP8是通義系列中最強大的視覺語言模型的FP8量化版本,採用塊大小為128的細粒度FP8量化,性能與原始BF16模型幾乎相同。該模型具備卓越的文本理解和生成能力、深入的視覺感知和推理能力、長上下文支持以及強大的智能體交互能力。
Qwen3-VL-235B-A22B-Thinking-FP8是通義系列中最強大的視覺語言模型的FP8量化版本,採用塊大小為128的細粒度fp8量化,性能指標與原始BF16模型幾乎相同。該模型具備卓越的文本理解與生成能力、深入的視覺感知與推理能力、長上下文支持以及強大的智能體交互能力。
Qwen3-VL-235B-A22B-Instruct-FP8是通義系列中最強大的視覺語言模型的FP8量化版本,採用塊大小為128的細粒度fp8量化,性能與原始BF16模型幾乎相同。該模型具備卓越的文本理解與生成能力、深入的視覺感知與推理能力、長上下文支持以及強大的空間和視頻動態理解能力。
ibm-granite
Granite 4.0 H-Small (FP8) 是IBM開發的Granite系列語言模型的小型FP8量化版本,專為提供專業、準確和安全的回覆而設計。該模型採用FP8精度格式,在保持性能的同時優化了推理效率。
這是NVIDIA-Nemotron-Nano-9B-v2模型的FP8動態量化版本,通過將權重和激活量化為FP8數據類型實現優化,顯著減少磁盤大小和GPU內存需求約50%,同時保持出色的文本生成性能。
這是Qwen3-VL-235B-A22B-Instruct的量化版本,通過將權重和激活值量化為FP8數據類型,有效減少了磁盤大小和GPU內存需求約50%。支持文本、圖像和視頻輸入,輸出文本,適用於多種自然語言處理和多模態任務。
Qwen3-VL-235B-A22B-Instruct-FP8-dynamic 是 Qwen3-VL-235B-A22B-Instruct 的量化版本,通過將權重和激活量化為 FP8 數據類型,顯著減少了磁盤大小和 GPU 內存需求,同時保持了較高的模型性能。
TheClusterDev
這是Qwen3-Next-80B-A3B-Instruct模型的FP8量化版本,通過vLLM框架支持,在保持模型質量的同時顯著減小了模型體積,提升了推理效率。
nvidia
這是NVIDIA對阿里巴巴Qwen3-14B模型進行FP8量化後的版本,採用優化的Transformer架構,支持131K上下文長度,適用於多種AI應用場景。
NVIDIA Qwen3-8B FP8 是阿里巴巴Qwen3-8B模型的量化版本,採用優化的Transformer架構,屬於自迴歸語言模型。該模型通過FP8量化技術優化,可在NVIDIA GPU上實現高效推理,支持商業和非商業用途。