Speechify发布原生Windows客户端,从文本转语音工具升级为全栈语音助手。应用集成三类本地AI模型,支持跨应用实时听写与文档转录,对标Superwhisper等竞品。为保障响应速度与隐私,在Copilot+ PC等高性能设备上支持完全本地化运行,用户无需上传音频至云端,即可利用本地NPU或GPU驱动的Whisper模型。
微软在Windows 11开发版更新中,为任务管理器新增了NPU实时监测功能,补齐了硬件监控的最后一块拼图。随着AI PC普及,NPU成为处理AI任务的核心硬件,此次升级让用户能直观查看其负载情况,使专用芯片运行状态透明可见。
特斯拉生产计划变动导致三星2nm产线排期调整,韩国AI芯片企业DeepX的下一代NPU芯片DX-M2量产被迫推迟半年,预计2026年第三季度后才能开始测试。这凸显了半导体代工行业大客户优先的排产规则对小企业的影响。
华硕推出UGen300 AI加速卡,采用USB接口设计,无需拆机或占用PCIe插槽,通过USB 3.1 Gen2线缆即可为PC、工控机等设备提供40 TOPS的本地AI推理能力。核心搭载Hailo-10H NPU芯片,功耗仅2.5瓦,板载8GB内存,支持直接运行大型预训练模型。
新一代骁龙X系列,搭载NPU,为创作者带来革新工具。
构建零成本的设备端AI。
英特尔神经处理单元加速库
Openai
$0.63
输入tokens/百万
$3.15
输出tokens/百万
131
上下文长度
Alibaba
-
Google
$0.14
$0.28
$0.35
$0.7
$1.4
Deepseek
$1
8
$2
128
NexaAI
Qwen3-VL-4B-Instruct是阿里云Qwen团队推出的40亿参数指令调优多模态大语言模型,专为高通NPU优化,融合强大的视觉语言理解能力与对话微调功能,适用于聊天推理、文档分析和视觉对话等实际应用场景。
amd
Llama-3.1-8B-onnx-ryzenai-npu是由AMD基于Meta的Llama-3.1-8B模型开发的优化版本,专门针对AMD Ryzen AI NPU进行优化部署。该模型通过Quark量化、OGA模型构建器和NPU专用后处理技术,在保持高质量文本生成能力的同时,显著提升了在AMD硬件上的推理效率。
OmniNeural是全球首个专门为神经处理单元(NPU)设计的全多模态模型,能够原生理解文本、图像和音频,可在PC、移动设备、汽车、物联网和机器人等多种设备上运行。
FastFlowLM
这是基于Meta AI的LLaMA 3.1基础模型的衍生模型,专门针对AMD Ryzen™ AI NPU上的FastFlowLM进行了优化,仅适用于XDNA2架构。模型保留了Meta发布的核心架构和权重,可能针对特定应用进行了微调、量化或适配。
这是Meta AI发布的LLaMA 3.2 1B Instruct模型的优化变体,专门针对AMD Ryzen™ AI NPU(XDNA2架构)上的FastFlowLM进行优化。模型保留了原始架构和权重,通过量化、底层调优等技术提升在NPU上的运行效率。
stabilityai
AMD Ryzen™ AI优化版SDXL-Turbo,全球首个采用Block FP16格式的文本生成图像模型,专为AMD XDNA™ 2 NPU设计
c01zaut
MiniCPM-V 2.6是支持单图、多图和视频理解的GPT-4V级别多模态大语言模型,专为RK3588 NPU优化
Phi-3.5-mini-instruct是微软开发的高效小型语言模型,采用先进的量化技术优化,专为NPU部署设计。该模型在文本生成任务中表现出色,支持自然语言处理和代码相关场景。
本项目基于Meta-Llama-3-8B模型,采用Quark量化技术,结合OGA模型构建器,并进行后处理以适配NPU部署,可用于文本生成任务。该模型专为AMD NPU硬件优化,支持高效的推理部署。
Pelochus
本仓库收集了通过瑞芯微rkllm工具包适配的各类大语言模型,专为RK3588 NPU转换的模型。