阿里云于2026年5月28日推出全托管AI Agent平台Cloud Agents,提供从底座到运行环境的全栈能力,企业通过API即可调用。该平台将Agent开发周期从1个月缩短至1天,加速AI原生应用渗透。当前通用Agent工具虽提升个人效率,但底层基础设施如推理引擎、运行沙箱等仍需完善。
AMD发布vLLM-ATOM插件,专为大语言模型部署优化,在不改变现有工作流下,显著提升DeepSeek-R1、Kimi-K2等国产大模型在AMD硬件上的推理性能。该插件针对Instinct系列GPU定制,利用vLLM框架的高显存利用率优势,让开发者以低学习成本实现技术迁移,获得性能平滑升级。
Mininglamp 开源了两个本地AI项目Cider和Mano-P,分别解决Mac端侧推理加速和GUI智能体操作痛点。Cider释放M系列芯片潜能,让LLM/VLM在本地运行更快更省资源;Mano-P则提升智能体操作效率。这使Mac从“能跑AI”升级为高效、私有、可深度操控的AI工作站,打造完整本地AI基础设施。
英伟达全球副总裁吴新宙近日透露,该公司正以“五层蛋糕”全栈生态布局自动驾驶,涵盖芯片、系统、算法、数据与云平台。L4级自动驾驶预计2025年实现落地。英伟达从芯片商转型为“三台计算机”模式,推动车端推理、训练与仿真协同,加速物理AI在出行领域的商业化进程。
用于衡量设备 AI 加速器推理性能的基准测试工具。
NVIDIA GPU上加速LLM推理的创新技术
开源框架,加速大型视频扩散模型
高效长序列大型语言模型推理技术
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$7
$35
Google
$2.1
$17.5
$21
$105
$0.7
Alibaba
$4
$16
$1
$10
256
Baidu
128
$2
$20
$6
$24
Moonshot
Bytedance
$0.8
32
GuangyuanSD
Z-Image-Re-Turbo 是一个基于文本生成图像的模型,它在 Z-Image-De-Turbo 模型的基础上进行了去还原和重新加速优化。该模型旨在兼顾训练时的便利性与推理时的速度,恢复了接近原始 Turbo 模型的快速生成能力,同时保持了与 Z-Image-De-Turbo 相同的训练友好特性,使其能够完美兼容 Z-Image 生态系统中已训练的大量 LoRA 模型。
unsloth
Qwen3-Next-80B-A3B-Instruct是阿里巴巴通义千问团队开发的最新一代大型语言模型,采用创新的混合注意力机制和高稀疏专家混合架构,在保持80B总参数的同时仅激活3B参数,实现了高效的上下文建模和推理加速,原生支持262K上下文长度并可扩展至1M令牌。
nvidia
NVIDIA Qwen3-14B FP4模型是阿里巴巴Qwen3-14B模型的量化版本,采用FP4数据类型进行优化,通过TensorRT-LLM进行高效推理。该模型专为NVIDIA GPU加速系统设计,适用于AI Agent系统、聊天机器人、RAG系统等多种AI应用场景,支持全球范围内的商业和非商业使用。
NVIDIA Qwen3-14B FP4 模型是阿里云 Qwen3-14B 模型的量化版本,采用优化的 Transformer 架构,是一个自回归语言模型。该模型使用 TensorRT Model Optimizer 进行量化,将权重和激活量化为 FP4 数据类型,可在 NVIDIA GPU 加速系统上实现高效推理。
Qwen
Qwen3-Next-80B-A3B-Instruct是Qwen3-Next系列的基础模型,通过创新的混合注意力机制、高稀疏性专家混合层等技术,实现了在长文本处理上的高效建模和推理加速,在多个基准测试中展现出卓越性能。
openbmb
MiniCPM4是专为端侧设备设计的高效大语言模型,通过系统创新在模型架构、训练数据、训练算法和推理系统四个维度实现极致效率提升,在端侧芯片上可实现超5倍的生成加速。
ConfidentialMind
这是 OpenGVLab/InternVL3-38B 的 FP8 静态量化版本,针对使用 vLLM 进行高性能推理进行了优化,在视觉语言任务上实现了约 2 倍的加速,同时精度损失极小。
amd
PARD是一种高性能的推测解码方法,能够以低成本将自回归草稿模型转换为并行草稿模型,显著加速大语言模型推理。
MiniCPM-S-1B-sft 是一个基于激活稀疏化技术优化的1B参数规模语言模型,通过ProSparse方法实现高稀疏性推理加速,同时保持与原始模型相当的性能。
Luo-Yihong
TDM是一种通过轨迹分布匹配技术实现高效少步扩散的模型,可在4步推理内生成高质量视频,相比原始模型实现25倍加速且性能无损。
microsoft
Phi-4多模态模型的ONNX版本,已量化为int4精度,通过ONNX Runtime加速推理,支持文本、图像和音频输入。
RedHatAI
这是DeepSeek-R1-Distill-Qwen-1.5B的INT4量化版本,通过权重量化技术将模型大小减少约75%,同时保持接近原始模型的性能,在推理速度上最高可实现1.5倍加速。
这是DeepSeek-R1-Distill-Llama-70B的INT4量化版本,通过权重量化技术将模型大小减少约75%,同时显著提升推理性能,支持高效部署和推理加速。
这是DeepSeek-R1-Distill-Qwen-32B的量化版本,通过将权重和激活量化为FP8数据类型,减少了磁盘大小和GPU内存需求约50%,同时在推理性能上有显著提升,最高可实现1.7倍加速。
Synthyra
FastESM2 是一个与 Huggingface 兼容的 ESM2 插件版本,采用新版 PyTorch 注意力实现重写,可在不损失性能的情况下显著加速蛋白质语言模型的训练和推理过程。
BigVGAN是基于大规模训练的通用神经声码器,能够高质量地将梅尔频谱转换为波形。v2版本通过定制CUDA内核加速推理,并扩展了训练数据多样性。
适用于浏览器内推理的Phi-3 Mini-4K-Instruct ONNX模型,通过ONNX Runtime Web加速浏览器中的推理。
ByteDance
Hyper-SD是一种先进的扩散模型加速技术,支持多种基础模型(如FLUX.1-dev、SD3、SDXL和SD1.5)的快速推理。
基于Meta的Llama-2-7B模型,使用UltraChat 200k数据集进行聊天任务微调的语言模型。该模型由Neural Magic和Cerebras联合开发,支持高效的稀疏迁移和推理加速。
michaelfeil
Infinity的稳定默认嵌入模型,专门用于句子特征提取和相似度计算任务。支持GPU加速和CPU优化推理,提供高效的文本嵌入能力。
AI00 RWKV Server是一个基于RWKV语言模型的高效推理API服务器,支持Vulkan加速和OpenAI兼容接口。