在3月18日的 GTC 大會上,Nvidia 首席執行官黃仁勳宣佈了一項令人奮的計劃,旨在通過新推出的軟件 Dynamo,將 DeepSeek 的人工智能處理速度提高30倍。此舉是 Nvidia 對 DeepSeek 公司 R1人工智能程序引發的市場動盪的迴應。DeepSeek 的技術能夠顯著降低每個查詢所需的計算量,導致投資者對 Nvidia 的未來前景表示擔憂。Nvidia 的 Dynamo 軟件能夠將 AI 推理任務分配到多達1000個 GPU 上並行處理,極大地提升了查詢吞吐量。黃仁勳表示,使用新的 Blackwell 芯片,Dynamo 能夠在相同的架構下提供30倍的處理能力。
谷歌近日推出了最新版本的 Gemma AI 模型 ——Gemma3,聲稱這是 “全球最強的單加速器模型”。與之前發佈的 Gemma AI 系列相比,Gemma3在性能上有了顯著提升,尤其適合只配備一張 Nvidia H100顯卡的開發者。該模型的設計初衷是爲了幫助開發者創建能夠在各種設備上運行的 AI 應用,從智能手機到工作站均可兼容。Gemma3支持超過35種語言,能夠分析文本、圖像及短視頻,使其在多媒體處理方面表現出色。谷歌還特別指出,Gemma3在單 GPU 主機上的性能超越了 Facebook 的 Llama、DeepSeek 及 OpenAI 的模型,成
中國人工智能公司DeepSeek在其“開源周”第3天宣佈推出DeepGEMM——一款支持FP8通用矩陣乘法(GEMM)的開源庫。這一工具專爲密集型和混合專家(MoE)矩陣運算設計,爲DeepSeek V3和R1模型的訓練與推理提供強大支持。官方消息通過X平臺發佈,迅速引發技術社區的熱烈反響。據DeepSeek官方賬號發佈的帖子,DeepGEMM在NVIDIA Hopper GPU上可實現高達1350+ TFLOPS的FP8計算性能。其核心邏輯僅約300行代碼,卻能在大多數矩陣尺寸上超越專家調優的內核,展現了極高的效率和簡潔性。該庫無需複雜依賴,採用即時編
["Nvidia 計劃推出功耗高達 1000W 的 B100AI 加速器,比之前的產品多出 42% 的功耗","Dell 高管表示,GPU 的功耗將持續增加,但直接液冷可能不再是必需的解決方案","Nvidia 的新一代 GPU 可能包括 B200Superchip,結合 Grace CPU,功耗或將達到 1300 瓦左右"]
Deepseek
$4
輸入tokens/百萬
$12
輸出tokens/百萬
128
上下文長度
Alibaba
$54
$163
1k
$16
32
$2
$8
-
8
$1
nvidia
NVIDIA DeepSeek R1 FP4 v2是基於DeepSeek AI的DeepSeek R1模型進行FP4量化的文本生成模型,採用優化的Transformer架構,可用於商業和非商業用途。該模型通過TensorRT Model Optimizer進行量化,相比FP8版本顯著減少了磁盤大小和GPU內存需求。
NVIDIA DeepSeek-R1-0528-FP4 v2是DeepSeek R1 0528模型的量化版本,採用優化的Transformer架構,是一個自迴歸語言模型。通過FP4量化優化,減少了磁盤大小和GPU內存需求,同時保持較高推理效率。
NVIDIA DeepSeek-R1-0528-FP4 是 DeepSeek R1 0528 模型的量化版本,採用優化的 Transformer 架構,權重和激活值量化為 FP4 數據類型,顯著減少磁盤大小和 GPU 內存需求,支持 TensorRT-LLM 推理引擎實現高效推理。
NVIDIA DeepSeek R1 FP4 模型是 DeepSeek AI 的 DeepSeek R1 模型的量化版本,使用優化 Transformer 架構的自迴歸語言模型。該模型通過 FP4 量化技術將參數位數從 8 位減少到 4 位,使磁盤大小和 GPU 內存需求減少約 1.6 倍,同時保持較高的精度性能。