摩爾線程發佈AI Coding Plan智能編程服務,基於國產GPU MTT S5000提供算力支撐,結合硅基流推理加速技術,旨在革新軟件開發模式,提升國內AI編程滲透率。
曦望(Sunrise)作爲AI推理專用GPU芯片公司,在成立一年內完成近30億元融資,創國內AI芯片初創企業早期融資紀錄。此輪融資匯聚產業資本、頭部VC/PE及國家級基金,顯示市場對其技術及國產替代前景的認可。投資方包括三一集團旗下華胥基金等,凸顯高端製造與AI芯片的戰略協同。
國產AI芯片與大模型協同優化取得重要進展。摩爾線程與硅基流動基於國產GPU MTT S5000,成功完成對千億參數大模型DeepSeek V3 671B的深度適配。通過應用FP8低精度推理技術,實現單卡預填充吞吐量超4000 tokens/秒,解碼吞吐量超1000 tokens/秒,推理速度已接近國際主流高端AI加速器水平。
OpenAI與Cerebras合作,將部署750兆瓦的Cerebras晶圓級系統,打造全球最大AI推理平臺。項目2026年啓動,2028年全面投產,交易額超100億美元。Cerebras芯片集成4萬億晶體管,面積遠超傳統GPU,此舉顯示大模型廠商正加速擺脫對傳統GPU的依賴。
用於衡量設備 AI 加速器推理性能的基準測試工具。
NVIDIA GPU上加速LLM推理的創新技術
開源框架,加速大型視頻擴散模型
高效長序列大型語言模型推理技術
Xai
$1.4
輸入tokens/百萬
$3.5
輸出tokens/百萬
2k
上下文長度
Openai
$7.7
$30.8
200
-
Anthropic
$7
$35
Google
$2.1
$17.5
1k
$21
$105
$0.7
$2.8
Alibaba
$1
$10
256
$6
$24
$2
$20
$4
$16
Baidu
128
Moonshot
Bytedance
$0.8
32
Deepseek
$12
Tencent
unsloth
Qwen3-Next-80B-A3B-Instruct是阿里巴巴通義千問團隊開發的最新一代大型語言模型,採用創新的混合注意力機制和高稀疏專家混合架構,在保持80B總參數的同時僅激活3B參數,實現了高效的上下文建模和推理加速,原生支持262K上下文長度並可擴展至1M令牌。
nvidia
NVIDIA Qwen3-14B FP4模型是阿里巴巴Qwen3-14B模型的量化版本,採用FP4數據類型進行優化,通過TensorRT-LLM進行高效推理。該模型專為NVIDIA GPU加速系統設計,適用於AI Agent系統、聊天機器人、RAG系統等多種AI應用場景,支持全球範圍內的商業和非商業使用。
NVIDIA Qwen3-14B FP4 模型是阿里雲 Qwen3-14B 模型的量化版本,採用優化的 Transformer 架構,是一個自迴歸語言模型。該模型使用 TensorRT Model Optimizer 進行量化,將權重和激活量化為 FP4 數據類型,可在 NVIDIA GPU 加速系統上實現高效推理。
Qwen
Qwen3-Next-80B-A3B-Instruct是Qwen3-Next系列的基礎模型,通過創新的混合注意力機制、高稀疏性專家混合層等技術,實現了在長文本處理上的高效建模和推理加速,在多個基準測試中展現出卓越性能。
openbmb
MiniCPM4是專為端側設備設計的高效大語言模型,通過系統創新在模型架構、訓練數據、訓練算法和推理系統四個維度實現極致效率提升,在端側芯片上可實現超5倍的生成加速。
ConfidentialMind
這是 OpenGVLab/InternVL3-38B 的 FP8 靜態量化版本,針對使用 vLLM 進行高性能推理進行了優化,在視覺語言任務上實現了約 2 倍的加速,同時精度損失極小。
amd
PARD是一種高性能的推測解碼方法,能夠以低成本將自迴歸草稿模型轉換為並行草稿模型,顯著加速大語言模型推理。
MiniCPM-S-1B-sft 是一個基於激活稀疏化技術優化的1B參數規模語言模型,通過ProSparse方法實現高稀疏性推理加速,同時保持與原始模型相當的性能。
Luo-Yihong
TDM是一種通過軌跡分佈匹配技術實現高效少步擴散的模型,可在4步推理內生成高質量視頻,相比原始模型實現25倍加速且性能無損。
microsoft
Phi-4多模態模型的ONNX版本,已量化為int4精度,通過ONNX Runtime加速推理,支持文本、圖像和音頻輸入。
RedHatAI
這是DeepSeek-R1-Distill-Qwen-1.5B的INT4量化版本,通過權重量化技術將模型大小減少約75%,同時保持接近原始模型的性能,在推理速度上最高可實現1.5倍加速。
這是DeepSeek-R1-Distill-Llama-70B的INT4量化版本,通過權重量化技術將模型大小減少約75%,同時顯著提升推理性能,支持高效部署和推理加速。
這是DeepSeek-R1-Distill-Qwen-32B的量化版本,通過將權重和激活量化為FP8數據類型,減少了磁盤大小和GPU內存需求約50%,同時在推理性能上有顯著提升,最高可實現1.7倍加速。
Synthyra
FastESM2 是一個與 Huggingface 兼容的 ESM2 插件版本,採用新版 PyTorch 注意力實現重寫,可在不損失性能的情況下顯著加速蛋白質語言模型的訓練和推理過程。
BigVGAN是基於大規模訓練的通用神經聲碼器,能夠高質量地將梅爾頻譜轉換為波形。v2版本通過定製CUDA內核加速推理,並擴展了訓練數據多樣性。
適用於瀏覽器內推理的Phi-3 Mini-4K-Instruct ONNX模型,通過ONNX Runtime Web加速瀏覽器中的推理。
ByteDance
Hyper-SD是一種先進的擴散模型加速技術,支持多種基礎模型(如FLUX.1-dev、SD3、SDXL和SD1.5)的快速推理。
基於Meta的Llama-2-7B模型,使用UltraChat 200k數據集進行聊天任務微調的語言模型。該模型由Neural Magic和Cerebras聯合開發,支持高效的稀疏遷移和推理加速。
michaelfeil
Infinity的穩定默認嵌入模型,專門用於句子特徵提取和相似度計算任務。支持GPU加速和CPU優化推理,提供高效的文本嵌入能力。
BGE-large-en-v1.5的量化(INT8)ONNX變體,通過DeepSparse進行推理加速
AI00 RWKV Server是一個基於RWKV語言模型的高效推理API服務器,支持Vulkan加速和OpenAI兼容接口。