华硕推出UGen300 AI加速卡,采用USB接口设计,无需拆机或占用PCIe插槽,通过USB 3.1 Gen2线缆即可为PC、工控机等设备提供40 TOPS的本地AI推理能力。核心搭载Hailo-10H NPU芯片,功耗仅2.5瓦,板载8GB内存,支持直接运行大型预训练模型。
Liquid AI推出新一代小型基础模型LFM2.5,专为边缘设备和本地部署设计。该系列包括基础版和指令版,并扩展了日语、视觉语言及音频语言变种。模型基于LFM2混合架构,针对CPU和NPU优化,实现快速高效推理。开源权重已发布在Hugging Face平台。
微软为Windows 11的AI组件提供详细更新日志,帮助用户追踪本地AI模型的静默更新。这些组件是Copilot+ PC实现本地AI体验的基础,需NPU算力支持,涵盖语义分析、图像处理等功能。
微软强调神经处理单元(NPU)对提升Windows智能化的关键作用,虽暂未列入硬件要求。NPU与CPU集成,可加速本地AI推理并降低功耗,已广泛应用于智能手机和Copilot+ PC等设备。微软称该技术使制造商能以更具竞争力的价格提供复杂AI体验,将原本需数千美元的计算成本降至几百美元。
新一代骁龙X系列,搭载NPU,为创作者带来革新工具。
构建零成本的设备端AI。
英特尔神经处理单元加速库
Openai
$0.63
输入tokens/百万
$3.15
输出tokens/百万
131
上下文长度
Alibaba
-
Google
$0.14
$0.28
$0.35
$0.7
$1.4
Deepseek
$1
8
$2
128
NexaAI
Qwen3-VL-4B-Instruct是阿里云Qwen团队推出的40亿参数指令调优多模态大语言模型,专为高通NPU优化,融合强大的视觉语言理解能力与对话微调功能,适用于聊天推理、文档分析和视觉对话等实际应用场景。
amd
Llama-3.1-8B-onnx-ryzenai-npu是由AMD基于Meta的Llama-3.1-8B模型开发的优化版本,专门针对AMD Ryzen AI NPU进行优化部署。该模型通过Quark量化、OGA模型构建器和NPU专用后处理技术,在保持高质量文本生成能力的同时,显著提升了在AMD硬件上的推理效率。
OmniNeural是全球首个专门为神经处理单元(NPU)设计的全多模态模型,能够原生理解文本、图像和音频,可在PC、移动设备、汽车、物联网和机器人等多种设备上运行。
FastFlowLM
这是基于Meta AI的LLaMA 3.1基础模型的衍生模型,专门针对AMD Ryzen™ AI NPU上的FastFlowLM进行了优化,仅适用于XDNA2架构。模型保留了Meta发布的核心架构和权重,可能针对特定应用进行了微调、量化或适配。
这是Meta AI发布的LLaMA 3.2 1B Instruct模型的优化变体,专门针对AMD Ryzen™ AI NPU(XDNA2架构)上的FastFlowLM进行优化。模型保留了原始架构和权重,通过量化、底层调优等技术提升在NPU上的运行效率。
stabilityai
AMD Ryzen™ AI优化版SDXL-Turbo,全球首个采用Block FP16格式的文本生成图像模型,专为AMD XDNA™ 2 NPU设计
c01zaut
MiniCPM-V 2.6是支持单图、多图和视频理解的GPT-4V级别多模态大语言模型,专为RK3588 NPU优化
Phi-3.5-mini-instruct是微软开发的高效小型语言模型,采用先进的量化技术优化,专为NPU部署设计。该模型在文本生成任务中表现出色,支持自然语言处理和代码相关场景。
本项目基于Meta-Llama-3-8B模型,采用Quark量化技术,结合OGA模型构建器,并进行后处理以适配NPU部署,可用于文本生成任务。该模型专为AMD NPU硬件优化,支持高效的推理部署。
Pelochus
本仓库收集了通过瑞芯微rkllm工具包适配的各类大语言模型,专为RK3588 NPU转换的模型。