微软Azure ND GB300v6虚拟机在Llama270B模型上创下每秒110万token推理速度新纪录。该成就基于与英伟达的深度合作,采用配备72个Blackwell Ultra GPU和36个Grace CPU的NVIDIA GB300NVL72系统,突显微软在规模化AI运算领域的专业实力。
Lambda与微软达成大规模AI基础设施合作,将部署数万台Nvidia GPU,包括最新GB300NVL72系统。具体交易金额未公开。Lambda CEO表示双方正合作部署大型AI超级计算机。
OpenAI与亚马逊AWS达成380亿美元长期合作,将在未来七年使用AWS云基础设施,特别是Amazon EC2 UltraServers和数千块NVIDIA高性能GPU。这标志着OpenAI从主要依赖微软Azure转向多元化云服务布局,以满足其日益增长的算力需求。
在2025年GTC大会上,NVIDIA推出“Omniverse DSX Blueprint”设计方案,专为吉瓦级AI数据中心打造,被称为“AI工厂”。该方案基于Omniverse框架,支持从1亿瓦到10亿瓦不同规模,旨在高效训练和运行大型AI模型,满足日益增长的AI计算需求,是人工智能基础设施的重要进展。
NVIDIA GeForce RTX 5070 Ti显卡,采用Blackwell架构,支持DLSS 4技术,为游戏和创作带来强大性能。
将PDF转换为音频内容,打造个性化的AI有声读物。
NVIDIA® GeForce RTX™ 5090是迄今为止最强大的GeForce GPU,为游戏玩家和创作者带来变革性能力。
NVIDIA-Ingest是用于文档内容和元数据提取的微服务。
nvidia
-
输入tokens/百万
输出tokens/百万
128k
上下文长度
samwell
NV-Reason-CXR-3B GGUF是NVIDIA NV-Reason-CXR-3B视觉语言模型的量化版本,专为边缘设备部署优化。这是一个30亿参数的模型,专注于胸部X光分析,已转换为GGUF格式并进行量化处理,可在移动设备、桌面设备和嵌入式系统上高效运行。
bartowski
这是英伟达Qwen3-Nemotron-32B-RLBFF大语言模型的GGUF量化版本,使用llama.cpp工具进行多种精度量化,提供从BF16到IQ2_XXS共20多种量化选项,适用于不同硬件配置和性能需求。
QuantStack
这是NVIDIA ChronoEdit-14B-Diffusers模型的GGUF量化版本,专门用于图像转视频任务。该模型保留了原始模型的所有功能,同时通过GGUF格式优化了部署和运行效率。
Qwen
Qwen3-VL-2B-Thinking是Qwen系列中最强大的视觉语言模型之一,采用GGUF格式权重,支持在CPU、NVIDIA GPU、Apple Silicon等设备上进行高效推理。该模型具备出色的多模态理解和推理能力,特别增强了视觉感知、空间理解和智能体交互功能。
TheStageAI
TheWhisper-Large-V3是OpenAI Whisper Large V3模型的高性能微调版本,由TheStage AI针对多平台(NVIDIA GPU和Apple Silicon)的实时、低延迟和低功耗语音转文本推理进行了优化。
NVIDIA-Nemotron-Nano-VL-12B-V2-FP4-QAD 是 NVIDIA 推出的自回归视觉语言模型,基于优化的 Transformer 架构,能够同时处理图像和文本输入。该模型采用 FP4 量化技术,在保持性能的同时显著减少模型大小和推理成本,适用于多种多模态应用场景。
NVIDIA-Nemotron-Nano-VL-12B-V2-FP8 是 NVIDIA 推出的量化视觉语言模型,采用优化的 Transformer 架构,在商业图像上进行了三阶段训练。该模型支持单图像推理,具备多语言和多模态处理能力,适用于图像总结、文本图像分析等多种场景。
BR-RM是一种创新的两轮推理奖励模型,通过自适应分支和基于分支的反思机制,解决了传统奖励模型中的'判断扩散'问题,在多个奖励建模基准测试中取得了业界领先的性能。
NVIDIA Nemotron Nano v2 12B VL是一款强大的多模态视觉语言模型,支持多图像推理和视频理解,具备文档智能、视觉问答和摘要功能,可用于商业用途。
Tacoin
这是Tacoin基于NVIDIA GR00T模型在LIBERO libero long基准测试上进行微调的机器人操作模型。该模型采用双RGB流和8自由度状态输入,能够预测16步关节空间动作,专门用于长视野机器人操作任务。
Llama Nemotron Reranking 1B是NVIDIA开发的专门用于文本检索重排序的模型,基于Llama-3.2-1B架构微调,能够为查询-文档对提供相关性对数得分,支持多语言和长文档处理。
Llama Nemotron Embedding 1B模型是NVIDIA开发的专为多语言和跨语言文本问答检索优化的嵌入模型,支持26种语言,能够处理长达8192个标记的文档,并可通过动态嵌入大小大幅减少数据存储占用。
Qwen3-Nemotron-32B-RLBFF是基于Qwen/Qwen3-32B微调的大语言模型,通过强化学习反馈技术显著提升了模型在默认思维模式下生成回复的质量。该模型在多个基准测试中表现出色,同时保持较低的推理成本。
NVIDIA GPT-OSS-120B Eagle3是基于OpenAI gpt-oss-120b模型的优化版本,采用混合专家(MoE)架构,具备1200亿总参数和50亿激活参数。该模型支持商业和非商业使用,适用于文本生成任务,特别适合AI Agent系统、聊天机器人等应用开发。
RedHatAI
这是NVIDIA-Nemotron-Nano-9B-v2模型的FP8动态量化版本,通过将权重和激活量化为FP8数据类型实现优化,显著减少磁盘大小和GPU内存需求约50%,同时保持出色的文本生成性能。
nineninesix
KaniTTS是一款高速、高保真的文本转语音模型,专为实时对话式人工智能应用而优化。该模型采用两阶段处理流程,结合大语言模型和高效音频编解码器,在Nvidia RTX 5080上生成15秒音频的延迟仅需约1秒,MOS自然度评分达4.3/5,支持英语、中文、日语等多种语言。
mlx-community
这是一个基于NVIDIA Nemotron架构的49B参数大语言模型,已转换为MLX格式并进行了4位量化,专门为Apple Silicon芯片优化,提供高效的文本生成能力。
unsloth
NVIDIA Nemotron Nano 9B v2 是 NVIDIA 开发的一款高性能大语言模型,采用 Mamba2-Transformer 混合架构,支持多语言推理和聊天任务,在多个基准测试中表现优异,特别支持运行时'思考'预算控制功能。
NVIDIA Qwen3-32B FP4模型是阿里云Qwen3-32B模型的量化版本,使用优化的Transformer架构,通过将权重和激活量化为FP4数据类型实现高效推理。该模型支持商业和非商业用途,适用于各种AI应用场景。
NVIDIA Qwen3-14B FP4模型是阿里巴巴Qwen3-14B模型的量化版本,采用FP4数据类型进行优化,通过TensorRT-LLM进行高效推理。该模型专为NVIDIA GPU加速系统设计,适用于AI Agent系统、聊天机器人、RAG系统等多种AI应用场景,支持全球范围内的商业和非商业使用。
Brev MCP服务器实现,使用Brev CLI的API访问令牌和当前组织配置,支持快速启动和开发调试。
Isaac Sim MCP扩展通过自然语言控制NVIDIA Isaac Sim,实现机器人模拟、场景创建和动态交互,连接MCP生态与具身智能应用。
一个基于FastMCP库的MCP服务器项目,用于通过网络客户端使用自然语言监控和远程控制Nvidia Jetson开发板。
一个基于NVIDIA USDCode API的MCP服务器,提供Isaac Sim脚本编写、USD操作、Python代码片段和API使用帮助的AI助手工具。
JetsonMCP是一个通过SSH连接管理NVIDIA Jetson Nano边缘计算设备的MCP服务器,提供AI工作负载优化、硬件配置和系统管理功能,支持自然语言指令转换为专业操作命令。
JetsonMCP是一个MCP服务器,通过SSH连接帮助AI助手管理和优化NVIDIA Jetson Nano边缘计算系统,提供AI工作负载部署、硬件优化和系统管理功能。