Speechify發佈原生Windows客戶端,從文本轉語音工具升級爲全棧語音助手。應用集成三類本地AI模型,支持跨應用實時聽寫與文檔轉錄,對標Superwhisper等競品。爲保障響應速度與隱私,在Copilot+ PC等高性能設備上支持完全本地化運行,用戶無需上傳音頻至雲端,即可利用本地NPU或GPU驅動的Whisper模型。
微軟在Windows 11開發版更新中,爲任務管理器新增了NPU實時監測功能,補齊了硬件監控的最後一塊拼圖。隨着AI PC普及,NPU成爲處理AI任務的核心硬件,此次升級讓用戶能直觀查看其負載情況,使專用芯片運行狀態透明可見。
特斯拉生產計劃變動導致三星2nm產線排期調整,韓國AI芯片企業DeepX的下一代NPU芯片DX-M2量產被迫推遲半年,預計2026年第三季度後才能開始測試。這凸顯了半導體代工行業大客戶優先的排產規則對小企業的影響。
華碩推出UGen300 AI加速卡,採用USB接口設計,無需拆機或佔用PCIe插槽,通過USB 3.1 Gen2線纜即可爲PC、工控機等設備提供40 TOPS的本地AI推理能力。核心搭載Hailo-10H NPU芯片,功耗僅2.5瓦,板載8GB內存,支持直接運行大型預訓練模型。
新一代驍龍X系列,搭載NPU,為創作者帶來革新工具。
構建零成本的設備端AI。
英特爾神經處理單元加速庫
Openai
$0.63
輸入tokens/百萬
$3.15
輸出tokens/百萬
131
上下文長度
Alibaba
-
Google
$0.7
$1.4
$0.14
$0.28
$0.35
Deepseek
$1
8
$2
128
NexaAI
Qwen3-VL-4B-Instruct是阿里雲Qwen團隊推出的40億參數指令調優多模態大語言模型,專為高通NPU優化,融合強大的視覺語言理解能力與對話微調功能,適用於聊天推理、文檔分析和視覺對話等實際應用場景。
amd
Llama-3.1-8B-onnx-ryzenai-npu是由AMD基於Meta的Llama-3.1-8B模型開發的優化版本,專門針對AMD Ryzen AI NPU進行優化部署。該模型通過Quark量化、OGA模型構建器和NPU專用後處理技術,在保持高質量文本生成能力的同時,顯著提升了在AMD硬件上的推理效率。
OmniNeural是全球首個專門為神經處理單元(NPU)設計的全多模態模型,能夠原生理解文本、圖像和音頻,可在PC、移動設備、汽車、物聯網和機器人等多種設備上運行。
FastFlowLM
這是基於Meta AI的LLaMA 3.1基礎模型的衍生模型,專門針對AMD Ryzen™ AI NPU上的FastFlowLM進行了優化,僅適用於XDNA2架構。模型保留了Meta發佈的核心架構和權重,可能針對特定應用進行了微調、量化或適配。
這是Meta AI發佈的LLaMA 3.2 1B Instruct模型的優化變體,專門針對AMD Ryzen™ AI NPU(XDNA2架構)上的FastFlowLM進行優化。模型保留了原始架構和權重,通過量化、底層調優等技術提升在NPU上的運行效率。
stabilityai
AMD Ryzen™ AI優化版SDXL-Turbo,全球首個採用Block FP16格式的文本生成圖像模型,專為AMD XDNA™ 2 NPU設計
c01zaut
MiniCPM-V 2.6是支持單圖、多圖和視頻理解的GPT-4V級別多模態大語言模型,專為RK3588 NPU優化
Phi-3.5-mini-instruct是微軟開發的高效小型語言模型,採用先進的量化技術優化,專為NPU部署設計。該模型在文本生成任務中表現出色,支持自然語言處理和代碼相關場景。
本項目基於Meta-Llama-3-8B模型,採用Quark量化技術,結合OGA模型構建器,並進行後處理以適配NPU部署,可用於文本生成任務。該模型專為AMD NPU硬件優化,支持高效的推理部署。
Pelochus
本倉庫收集了通過瑞芯微rkllm工具包適配的各類大語言模型,專為RK3588 NPU轉換的模型。