蚂蚁集团百灵大模型今日开源Ling-2.6-flash,推出BF16、FP8、INT4等多量化版本,降低AI部署门槛。该模型总参数104B,激活参数7.4B,此前以匿名身份在国际评测平台表现优异,并针对中英文切换与代码生成完成多轮优化。
蚂蚁集团百灵大模型系列更新,Ling-2.6-flash正式开放。该模型总参数104B,激活参数7.4B,提供BF16、FP8、INT4等多精度版本,适配不同硬件环境并降低部署门槛。此前以“Elephant Alpha”匿名在OpenRouter平台测试。
国产AI芯片与大模型协同优化取得重要进展。摩尔线程与硅基流动基于国产GPU MTT S5000,成功完成对千亿参数大模型DeepSeek V3 671B的深度适配。通过应用FP8低精度推理技术,实现单卡预填充吞吐量超4000 tokens/秒,解码吞吐量超1000 tokens/秒,推理速度已接近国际主流高端AI加速器水平。
蚂蚁集团开源万亿参数大模型Ling-1T,采用FP8低精度训练,为当前最大基座模型。该模型由"百灵"团队开发,属于Ling2.0家族,包含Ling、Ring、Ming三大系列。其中Ling系列专注通用任务,强调速度与效率优势。
DeepGEMM是一个用于高效FP8矩阵乘法的CUDA库,支持细粒度缩放和多种优化技术。
Alibaba
-
输入tokens/百万
输出tokens/百万
上下文长度
Tencent
$6
$18
256
Chatglm
128
T5B
Z-Image-Turbo 是经过 FP8 E5M2 和 E4M3FN 格式量化的图像处理模型,基于原始 Tongyi-MAI/Z-Image-Turbo 模型优化,在保持性能的同时显著减少模型大小和推理资源需求。
silveroxides
基于 black-forest-labs/FLUX.2-dev 的优化版本图像生成模型,支持图像到图像的生成和编辑任务,采用 fp8_scaled 量化技术提升推理速度,特别适合在低显存 GPU 上使用。
kyr0
这是一个专为苹果硅芯片设备优化的自动语音识别模型,通过转换为MLX框架并量化为FP8格式,实现在苹果设备上的快速端上语音转录。该模型针对逐字精度进行微调,特别适用于需要高精度转录的场景。
mratsim
GLM-4.5-Iceblink-v2-106B-A12B-FP8是基于GLM-4.5-Iceblink-v2-106B-A12B模型,采用最先进的混合专家量化方法进行FP8量化的版本。该模型专门针对支持硬件FP8的Ada、Hopper或Blackwell系列GPU优化,在保持高质量输出的同时显著提升推理效率。
Qwen
Qwen3-VL-2B-Instruct-FP8是Qwen系列中最强大的视觉语言模型的FP8量化版本,采用块大小为128的细粒度fp8量化,性能与原始BF16模型几乎相同。该模型具备卓越的文本理解和生成能力、深入的视觉感知与推理能力、长上下文支持以及增强的空间和视频动态理解能力。
Qwen3-VL-32B-Instruct-FP8是Qwen系列中最强大的视觉语言模型的FP8量化版本,采用块大小为128的细粒度fp8量化,性能指标与原始BF16模型几乎相同。该模型具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持以及强大的空间和视频动态理解能力。
Qwen3-VL-32B-Thinking-FP8是Qwen系列中最强大的视觉语言模型的FP8量化版本,采用块大小为128的细粒度fp8量化技术,性能指标与原始BF16模型几乎相同。该模型具备出色的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持以及强大的智能体交互能力。
RedHatAI
这是Meta Llama-3.1-8B-Instruct模型的FP8量化版本,通过对权重和激活值进行FP8量化,显著减少了磁盘大小和GPU内存需求,同时保持了良好的模型性能。
allenai
olmOCR-2-7B-1025的FP8量化版本,基于Qwen2.5-VL-7B-Instruct微调而来,专门用于处理数学方程、表格等复杂OCR场景的视觉语言模型。
Qwen3-VL-30B-A3B-Thinking-FP8是通义系列中最强大的视觉语言模型的FP8量化版本,采用块大小为128的细粒度fp8量化,性能指标与原始BF16模型几乎相同。该模型具备卓越的文本理解与生成能力、深入的视觉感知与推理能力,支持长上下文和视频理解。
Qwen3-VL-30B-A3B-Instruct-FP8是通义系列中最强大的视觉语言模型的FP8量化版本,采用块大小为128的细粒度FP8量化,性能与原始BF16模型几乎相同。该模型具备卓越的文本理解和生成能力、深入的视觉感知和推理能力、长上下文支持以及强大的智能体交互能力。
Qwen3-VL-235B-A22B-Thinking-FP8是通义系列中最强大的视觉语言模型的FP8量化版本,采用块大小为128的细粒度fp8量化,性能指标与原始BF16模型几乎相同。该模型具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持以及强大的智能体交互能力。
Qwen3-VL-235B-A22B-Instruct-FP8是通义系列中最强大的视觉语言模型的FP8量化版本,采用块大小为128的细粒度fp8量化,性能与原始BF16模型几乎相同。该模型具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持以及强大的空间和视频动态理解能力。
ibm-granite
Granite 4.0 H-Small (FP8) 是IBM开发的Granite系列语言模型的小型FP8量化版本,专为提供专业、准确和安全的回复而设计。该模型采用FP8精度格式,在保持性能的同时优化了推理效率。
这是NVIDIA-Nemotron-Nano-9B-v2模型的FP8动态量化版本,通过将权重和激活量化为FP8数据类型实现优化,显著减少磁盘大小和GPU内存需求约50%,同时保持出色的文本生成性能。
这是Qwen3-VL-235B-A22B-Instruct的量化版本,通过将权重和激活值量化为FP8数据类型,有效减少了磁盘大小和GPU内存需求约50%。支持文本、图像和视频输入,输出文本,适用于多种自然语言处理和多模态任务。
Qwen3-VL-235B-A22B-Instruct-FP8-dynamic 是 Qwen3-VL-235B-A22B-Instruct 的量化版本,通过将权重和激活量化为 FP8 数据类型,显著减少了磁盘大小和 GPU 内存需求,同时保持了较高的模型性能。
TheClusterDev
这是Qwen3-Next-80B-A3B-Instruct模型的FP8量化版本,通过vLLM框架支持,在保持模型质量的同时显著减小了模型体积,提升了推理效率。
nvidia
这是NVIDIA对阿里巴巴Qwen3-14B模型进行FP8量化后的版本,采用优化的Transformer架构,支持131K上下文长度,适用于多种AI应用场景。
NVIDIA Qwen3-8B FP8 是阿里巴巴Qwen3-8B模型的量化版本,采用优化的Transformer架构,属于自回归语言模型。该模型通过FP8量化技术优化,可在NVIDIA GPU上实现高效推理,支持商业和非商业用途。