華碩推出UGen300 AI加速卡,採用USB接口設計,無需拆機或佔用PCIe插槽,通過USB 3.1 Gen2線纜即可爲PC、工控機等設備提供40 TOPS的本地AI推理能力。核心搭載Hailo-10H NPU芯片,功耗僅2.5瓦,板載8GB內存,支持直接運行大型預訓練模型。
Liquid AI推出新一代小型基礎模型LFM2.5,專爲邊緣設備和本地部署設計。該系列包括基礎版和指令版,並擴展了日語、視覺語言及音頻語言變種。模型基於LFM2混合架構,針對CPU和NPU優化,實現快速高效推理。開源權重已發佈在Hugging Face平臺。
微軟爲Windows 11的AI組件提供詳細更新日誌,幫助用戶追蹤本地AI模型的靜默更新。這些組件是Copilot+ PC實現本地AI體驗的基礎,需NPU算力支持,涵蓋語義分析、圖像處理等功能。
微軟強調神經處理單元(NPU)對提升Windows智能化的關鍵作用,雖暫未列入硬件要求。NPU與CPU集成,可加速本地AI推理並降低功耗,已廣泛應用於智能手機和Copilot+ PC等設備。微軟稱該技術使製造商能以更具競爭力的價格提供複雜AI體驗,將原本需數千美元的計算成本降至幾百美元。
新一代驍龍X系列,搭載NPU,為創作者帶來革新工具。
構建零成本的設備端AI。
英特爾神經處理單元加速庫
Openai
$0.63
輸入tokens/百萬
$3.15
輸出tokens/百萬
131
上下文長度
Alibaba
-
Google
$0.7
$1.4
$0.14
$0.28
$0.35
Deepseek
$1
8
$2
128
NexaAI
Qwen3-VL-4B-Instruct是阿里雲Qwen團隊推出的40億參數指令調優多模態大語言模型,專為高通NPU優化,融合強大的視覺語言理解能力與對話微調功能,適用於聊天推理、文檔分析和視覺對話等實際應用場景。
amd
Llama-3.1-8B-onnx-ryzenai-npu是由AMD基於Meta的Llama-3.1-8B模型開發的優化版本,專門針對AMD Ryzen AI NPU進行優化部署。該模型通過Quark量化、OGA模型構建器和NPU專用後處理技術,在保持高質量文本生成能力的同時,顯著提升了在AMD硬件上的推理效率。
OmniNeural是全球首個專門為神經處理單元(NPU)設計的全多模態模型,能夠原生理解文本、圖像和音頻,可在PC、移動設備、汽車、物聯網和機器人等多種設備上運行。
FastFlowLM
這是基於Meta AI的LLaMA 3.1基礎模型的衍生模型,專門針對AMD Ryzen™ AI NPU上的FastFlowLM進行了優化,僅適用於XDNA2架構。模型保留了Meta發佈的核心架構和權重,可能針對特定應用進行了微調、量化或適配。
這是Meta AI發佈的LLaMA 3.2 1B Instruct模型的優化變體,專門針對AMD Ryzen™ AI NPU(XDNA2架構)上的FastFlowLM進行優化。模型保留了原始架構和權重,通過量化、底層調優等技術提升在NPU上的運行效率。
stabilityai
AMD Ryzen™ AI優化版SDXL-Turbo,全球首個採用Block FP16格式的文本生成圖像模型,專為AMD XDNA™ 2 NPU設計
c01zaut
MiniCPM-V 2.6是支持單圖、多圖和視頻理解的GPT-4V級別多模態大語言模型,專為RK3588 NPU優化
Phi-3.5-mini-instruct是微軟開發的高效小型語言模型,採用先進的量化技術優化,專為NPU部署設計。該模型在文本生成任務中表現出色,支持自然語言處理和代碼相關場景。
本項目基於Meta-Llama-3-8B模型,採用Quark量化技術,結合OGA模型構建器,並進行後處理以適配NPU部署,可用於文本生成任務。該模型專為AMD NPU硬件優化,支持高效的推理部署。
Pelochus
本倉庫收集了通過瑞芯微rkllm工具包適配的各類大語言模型,專為RK3588 NPU轉換的模型。