摩尔线程发布AI Coding Plan智能编程服务,基于国产GPU MTT S5000提供算力支撑,结合硅基流推理加速技术,旨在革新软件开发模式,提升国内AI编程渗透率。
曦望(Sunrise)作为AI推理专用GPU芯片公司,在成立一年内完成近30亿元融资,创国内AI芯片初创企业早期融资纪录。此轮融资汇聚产业资本、头部VC/PE及国家级基金,显示市场对其技术及国产替代前景的认可。投资方包括三一集团旗下华胥基金等,凸显高端制造与AI芯片的战略协同。
国产AI芯片与大模型协同优化取得重要进展。摩尔线程与硅基流动基于国产GPU MTT S5000,成功完成对千亿参数大模型DeepSeek V3 671B的深度适配。通过应用FP8低精度推理技术,实现单卡预填充吞吐量超4000 tokens/秒,解码吞吐量超1000 tokens/秒,推理速度已接近国际主流高端AI加速器水平。
OpenAI与Cerebras合作,将部署750兆瓦的Cerebras晶圆级系统,打造全球最大AI推理平台。项目2026年启动,2028年全面投产,交易额超100亿美元。Cerebras芯片集成4万亿晶体管,面积远超传统GPU,此举显示大模型厂商正加速摆脱对传统GPU的依赖。
用于衡量设备 AI 加速器推理性能的基准测试工具。
NVIDIA GPU上加速LLM推理的创新技术
开源框架,加速大型视频扩散模型
高效长序列大型语言模型推理技术
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$7
$35
Google
$2.1
$17.5
$21
$105
$0.7
Alibaba
$4
$16
$1
$10
256
$2
$20
Baidu
128
$6
$24
Moonshot
Bytedance
$0.8
32
GuangyuanSD
Z-Image-Re-Turbo 是一个基于文本生成图像的模型,它在 Z-Image-De-Turbo 模型的基础上进行了去还原和重新加速优化。该模型旨在兼顾训练时的便利性与推理时的速度,恢复了接近原始 Turbo 模型的快速生成能力,同时保持了与 Z-Image-De-Turbo 相同的训练友好特性,使其能够完美兼容 Z-Image 生态系统中已训练的大量 LoRA 模型。
unsloth
Qwen3-Next-80B-A3B-Instruct是阿里巴巴通义千问团队开发的最新一代大型语言模型,采用创新的混合注意力机制和高稀疏专家混合架构,在保持80B总参数的同时仅激活3B参数,实现了高效的上下文建模和推理加速,原生支持262K上下文长度并可扩展至1M令牌。
nvidia
NVIDIA Qwen3-14B FP4模型是阿里巴巴Qwen3-14B模型的量化版本,采用FP4数据类型进行优化,通过TensorRT-LLM进行高效推理。该模型专为NVIDIA GPU加速系统设计,适用于AI Agent系统、聊天机器人、RAG系统等多种AI应用场景,支持全球范围内的商业和非商业使用。
NVIDIA Qwen3-14B FP4 模型是阿里云 Qwen3-14B 模型的量化版本,采用优化的 Transformer 架构,是一个自回归语言模型。该模型使用 TensorRT Model Optimizer 进行量化,将权重和激活量化为 FP4 数据类型,可在 NVIDIA GPU 加速系统上实现高效推理。
Qwen
Qwen3-Next-80B-A3B-Instruct是Qwen3-Next系列的基础模型,通过创新的混合注意力机制、高稀疏性专家混合层等技术,实现了在长文本处理上的高效建模和推理加速,在多个基准测试中展现出卓越性能。
openbmb
MiniCPM4是专为端侧设备设计的高效大语言模型,通过系统创新在模型架构、训练数据、训练算法和推理系统四个维度实现极致效率提升,在端侧芯片上可实现超5倍的生成加速。
ConfidentialMind
这是 OpenGVLab/InternVL3-38B 的 FP8 静态量化版本,针对使用 vLLM 进行高性能推理进行了优化,在视觉语言任务上实现了约 2 倍的加速,同时精度损失极小。
amd
PARD是一种高性能的推测解码方法,能够以低成本将自回归草稿模型转换为并行草稿模型,显著加速大语言模型推理。
MiniCPM-S-1B-sft 是一个基于激活稀疏化技术优化的1B参数规模语言模型,通过ProSparse方法实现高稀疏性推理加速,同时保持与原始模型相当的性能。
Luo-Yihong
TDM是一种通过轨迹分布匹配技术实现高效少步扩散的模型,可在4步推理内生成高质量视频,相比原始模型实现25倍加速且性能无损。
microsoft
Phi-4多模态模型的ONNX版本,已量化为int4精度,通过ONNX Runtime加速推理,支持文本、图像和音频输入。
RedHatAI
这是DeepSeek-R1-Distill-Qwen-1.5B的INT4量化版本,通过权重量化技术将模型大小减少约75%,同时保持接近原始模型的性能,在推理速度上最高可实现1.5倍加速。
这是DeepSeek-R1-Distill-Llama-70B的INT4量化版本,通过权重量化技术将模型大小减少约75%,同时显著提升推理性能,支持高效部署和推理加速。
这是DeepSeek-R1-Distill-Qwen-32B的量化版本,通过将权重和激活量化为FP8数据类型,减少了磁盘大小和GPU内存需求约50%,同时在推理性能上有显著提升,最高可实现1.7倍加速。
Synthyra
FastESM2 是一个与 Huggingface 兼容的 ESM2 插件版本,采用新版 PyTorch 注意力实现重写,可在不损失性能的情况下显著加速蛋白质语言模型的训练和推理过程。
BigVGAN是基于大规模训练的通用神经声码器,能够高质量地将梅尔频谱转换为波形。v2版本通过定制CUDA内核加速推理,并扩展了训练数据多样性。
适用于浏览器内推理的Phi-3 Mini-4K-Instruct ONNX模型,通过ONNX Runtime Web加速浏览器中的推理。
ByteDance
Hyper-SD是一种先进的扩散模型加速技术,支持多种基础模型(如FLUX.1-dev、SD3、SDXL和SD1.5)的快速推理。
基于Meta的Llama-2-7B模型,使用UltraChat 200k数据集进行聊天任务微调的语言模型。该模型由Neural Magic和Cerebras联合开发,支持高效的稀疏迁移和推理加速。
michaelfeil
Infinity的稳定默认嵌入模型,专门用于句子特征提取和相似度计算任务。支持GPU加速和CPU优化推理,提供高效的文本嵌入能力。
AI00 RWKV Server是一个基于RWKV语言模型的高效推理API服务器,支持Vulkan加速和OpenAI兼容接口。