微軟Azure ND GB300v6虛擬機在Llama270B模型上創下每秒110萬token推理速度新紀錄。該成就基於與英偉達的深度合作,採用配備72個Blackwell Ultra GPU和36個Grace CPU的NVIDIA GB300NVL72系統,突顯微軟在規模化AI運算領域的專業實力。
Lambda與微軟達成大規模AI基礎設施合作,將部署數萬臺Nvidia GPU,包括最新GB300NVL72系統。具體交易金額未公開。Lambda CEO表示雙方正合作部署大型AI超級計算機。
OpenAI與亞馬遜AWS達成380億美元長期合作,將在未來七年使用AWS雲基礎設施,特別是Amazon EC2 UltraServers和數千塊NVIDIA高性能GPU。這標誌着OpenAI從主要依賴微軟Azure轉向多元化雲服務佈局,以滿足其日益增長的算力需求。
在2025年GTC大會上,NVIDIA推出“Omniverse DSX Blueprint”設計方案,專爲吉瓦級AI數據中心打造,被稱爲“AI工廠”。該方案基於Omniverse框架,支持從1億瓦到10億瓦不同規模,旨在高效訓練和運行大型AI模型,滿足日益增長的AI計算需求,是人工智能基礎設施的重要進展。
NVIDIA GeForce RTX 5070 Ti顯卡,採用Blackwell架構,支持DLSS 4技術,為遊戲和創作帶來強大性能。
將PDF轉換為音頻內容,打造個性化的AI有聲讀物。
NVIDIA® GeForce RTX™ 5090是迄今為止最強大的GeForce GPU,為遊戲玩家和創作者帶來變革性能力。
NVIDIA-Ingest是用於文檔內容和元數據提取的微服務。
nvidia
-
輸入tokens/百萬
輸出tokens/百萬
128k
上下文長度
bartowski
這是英偉達Qwen3-Nemotron-32B-RLBFF大語言模型的GGUF量化版本,使用llama.cpp工具進行多種精度量化,提供從BF16到IQ2_XXS共20多種量化選項,適用於不同硬件配置和性能需求。
QuantStack
這是NVIDIA ChronoEdit-14B-Diffusers模型的GGUF量化版本,專門用於圖像轉視頻任務。該模型保留了原始模型的所有功能,同時通過GGUF格式優化了部署和運行效率。
Qwen
Qwen3-VL-2B-Thinking是Qwen系列中最強大的視覺語言模型之一,採用GGUF格式權重,支持在CPU、NVIDIA GPU、Apple Silicon等設備上進行高效推理。該模型具備出色的多模態理解和推理能力,特別增強了視覺感知、空間理解和智能體交互功能。
TheStageAI
TheWhisper-Large-V3是OpenAI Whisper Large V3模型的高性能微調版本,由TheStage AI針對多平臺(NVIDIA GPU和Apple Silicon)的即時、低延遲和低功耗語音轉文本推理進行了優化。
NVIDIA-Nemotron-Nano-VL-12B-V2-FP4-QAD 是 NVIDIA 推出的自迴歸視覺語言模型,基於優化的 Transformer 架構,能夠同時處理圖像和文本輸入。該模型採用 FP4 量化技術,在保持性能的同時顯著減少模型大小和推理成本,適用於多種多模態應用場景。
NVIDIA-Nemotron-Nano-VL-12B-V2-FP8 是 NVIDIA 推出的量化視覺語言模型,採用優化的 Transformer 架構,在商業圖像上進行了三階段訓練。該模型支持單圖像推理,具備多語言和多模態處理能力,適用於圖像總結、文本圖像分析等多種場景。
BR-RM是一種創新的兩輪推理獎勵模型,通過自適應分支和基於分支的反思機制,解決了傳統獎勵模型中的'判斷擴散'問題,在多個獎勵建模基準測試中取得了業界領先的性能。
NVIDIA Nemotron Nano v2 12B VL是一款強大的多模態視覺語言模型,支持多圖像推理和視頻理解,具備文檔智能、視覺問答和摘要功能,可用於商業用途。
Tacoin
這是Tacoin基於NVIDIA GR00T模型在LIBERO libero long基準測試上進行微調的機器人操作模型。該模型採用雙RGB流和8自由度狀態輸入,能夠預測16步關節空間動作,專門用於長視野機器人操作任務。
Qwen3-Nemotron-32B-RLBFF是基於Qwen/Qwen3-32B微調的大語言模型,通過強化學習反饋技術顯著提升了模型在默認思維模式下生成回覆的質量。該模型在多個基準測試中表現出色,同時保持較低的推理成本。
NVIDIA GPT-OSS-120B Eagle3是基於OpenAI gpt-oss-120b模型的優化版本,採用混合專家(MoE)架構,具備1200億總參數和50億激活參數。該模型支持商業和非商業使用,適用於文本生成任務,特別適合AI Agent系統、聊天機器人等應用開發。
RedHatAI
這是NVIDIA-Nemotron-Nano-9B-v2模型的FP8動態量化版本,通過將權重和激活量化為FP8數據類型實現優化,顯著減少磁盤大小和GPU內存需求約50%,同時保持出色的文本生成性能。
nineninesix
KaniTTS是一款高速、高保真的文本轉語音模型,專為即時對話式人工智能應用而優化。該模型採用兩階段處理流程,結合大語言模型和高效音頻編解碼器,在Nvidia RTX 5080上生成15秒音頻的延遲僅需約1秒,MOS自然度評分達4.3/5,支持英語、中文、日語等多種語言。
mlx-community
這是一個基於NVIDIA Nemotron架構的49B參數大語言模型,已轉換為MLX格式並進行了4位量化,專門為Apple Silicon芯片優化,提供高效的文本生成能力。
unsloth
NVIDIA Nemotron Nano 9B v2 是 NVIDIA 開發的一款高性能大語言模型,採用 Mamba2-Transformer 混合架構,支持多語言推理和聊天任務,在多個基準測試中表現優異,特別支持運行時'思考'預算控制功能。
NVIDIA Qwen3-32B FP4模型是阿里雲Qwen3-32B模型的量化版本,使用優化的Transformer架構,通過將權重和激活量化為FP4數據類型實現高效推理。該模型支持商業和非商業用途,適用於各種AI應用場景。
NVIDIA Qwen3-14B FP4模型是阿里巴巴Qwen3-14B模型的量化版本,採用FP4數據類型進行優化,通過TensorRT-LLM進行高效推理。該模型專為NVIDIA GPU加速系統設計,適用於AI Agent系統、聊天機器人、RAG系統等多種AI應用場景,支持全球範圍內的商業和非商業使用。
Mungert
NVIDIA Nemotron Nano 12B v2是由NVIDIA開發的大語言模型,採用Mamba2-Transformer混合架構,具有120億參數。該模型支持多語言處理,在多個基準測試中表現出色,特別擅長推理任務,支持運行時推理預算控制。
cpatonn
NVIDIA Nemotron Nano 12B v2是由NVIDIA從頭訓練的大型語言模型,專為推理和非推理任務設計。採用混合Mamba2-Transformer架構,支持多語言,具備可控推理能力,可根據用戶需求生成推理過程或直接給出答案。
NVIDIA-Nemotron-Nano-9B-v2是NVIDIA全新訓練的大語言模型,專為推理和非推理任務設計的統一模型。它採用Mamba2-Transformer混合架構,支持多語言,具備可控的推理能力,用戶可通過系統提示控制模型的推理過程顯示。模型在多項基準測試中表現優異,已可商用。
一個基於NVIDIA USDCode API的MCP服務器,提供Isaac Sim腳本編寫、USD操作、Python代碼片段和API使用幫助的AI助手工具。
Brev MCP服務器實現,使用Brev CLI的API訪問令牌和當前組織配置,支持快速啟動和開發調試。
Isaac Sim MCP擴展通過自然語言控制NVIDIA Isaac Sim,實現機器人模擬、場景創建和動態交互,連接MCP生態與具身智能應用。
一個基於FastMCP庫的MCP服務器項目,用於通過網絡客戶端使用自然語言監控和遠程控制Nvidia Jetson開發板。
JetsonMCP是一個通過SSH連接管理NVIDIA Jetson Nano邊緣計算設備的MCP服務器,提供AI工作負載優化、硬件配置和系統管理功能,支持自然語言指令轉換為專業操作命令。
JetsonMCP是一個MCP服務器,通過SSH連接幫助AI助手管理和優化NVIDIA Jetson Nano邊緣計算系統,提供AI工作負載部署、硬件優化和系統管理功能。