在3月18日的 GTC 大会上,Nvidia 首席执行官黄仁勋宣布了一项令人奋的计划,旨在通过新推出的软件 Dynamo,将 DeepSeek 的人工智能处理速度提高30倍。此举是 Nvidia 对 DeepSeek 公司 R1人工智能程序引发的市场动荡的回应。DeepSeek 的技术能够显著降低每个查询所需的计算量,导致投资者对 Nvidia 的未来前景表示担忧。Nvidia 的 Dynamo 软件能够将 AI 推理任务分配到多达1000个 GPU 上并行处理,极大地提升了查询吞吐量。黄仁勋表示,使用新的 Blackwell 芯片,Dynamo 能够在相同的架构下提供30倍的处理能力。
谷歌近日推出了最新版本的 Gemma AI 模型 ——Gemma3,声称这是 “全球最强的单加速器模型”。与之前发布的 Gemma AI 系列相比,Gemma3在性能上有了显著提升,尤其适合只配备一张 Nvidia H100显卡的开发者。该模型的设计初衷是为了帮助开发者创建能够在各种设备上运行的 AI 应用,从智能手机到工作站均可兼容。Gemma3支持超过35种语言,能够分析文本、图像及短视频,使其在多媒体处理方面表现出色。谷歌还特别指出,Gemma3在单 GPU 主机上的性能超越了 Facebook 的 Llama、DeepSeek 及 OpenAI 的模型,成
中国人工智能公司DeepSeek在其“开源周”第3天宣布推出DeepGEMM——一款支持FP8通用矩阵乘法(GEMM)的开源库。这一工具专为密集型和混合专家(MoE)矩阵运算设计,为DeepSeek V3和R1模型的训练与推理提供强大支持。官方消息通过X平台发布,迅速引发技术社区的热烈反响。据DeepSeek官方账号发布的帖子,DeepGEMM在NVIDIA Hopper GPU上可实现高达1350+ TFLOPS的FP8计算性能。其核心逻辑仅约300行代码,却能在大多数矩阵尺寸上超越专家调优的内核,展现了极高的效率和简洁性。该库无需复杂依赖,采用即时编
["Nvidia 计划推出功耗高达 1000W 的 B100AI 加速器,比之前的产品多出 42% 的功耗","Dell 高管表示,GPU 的功耗将持续增加,但直接液冷可能不再是必需的解决方案","Nvidia 的新一代 GPU 可能包括 B200Superchip,结合 Grace CPU,功耗或将达到 1300 瓦左右"]
Alibaba
$54
输入tokens/百万
$163
输出tokens/百万
1k
上下文长度
Deepseek
$4
$12
128
$16
32
$2
$8
-
8
$1
nvidia
NVIDIA DeepSeek R1 FP4 v2是基于DeepSeek AI的DeepSeek R1模型进行FP4量化的文本生成模型,采用优化的Transformer架构,可用于商业和非商业用途。该模型通过TensorRT Model Optimizer进行量化,相比FP8版本显著减少了磁盘大小和GPU内存需求。
NVIDIA DeepSeek-R1-0528-FP4 v2是DeepSeek R1 0528模型的量化版本,采用优化的Transformer架构,是一个自回归语言模型。通过FP4量化优化,减少了磁盘大小和GPU内存需求,同时保持较高推理效率。
NVIDIA DeepSeek-R1-0528-FP4 是 DeepSeek R1 0528 模型的量化版本,采用优化的 Transformer 架构,权重和激活值量化为 FP4 数据类型,显著减少磁盘大小和 GPU 内存需求,支持 TensorRT-LLM 推理引擎实现高效推理。
NVIDIA DeepSeek R1 FP4 模型是 DeepSeek AI 的 DeepSeek R1 模型的量化版本,使用优化 Transformer 架构的自回归语言模型。该模型通过 FP4 量化技术将参数位数从 8 位减少到 4 位,使磁盘大小和 GPU 内存需求减少约 1.6 倍,同时保持较高的精度性能。