Runway發佈最新視頻生成模型Gen-4.5,專爲創作者、影視製作人和企業用戶設計,即將向所有訂閱層級開放。該模型在文本轉視頻基準測試中以1247分領先,超越谷歌Veo3等競品,成爲當前最強文生視頻模型。其卓越性能得益於先進的NVIDIA Hopper與Blackwell GPU平臺支持。
Runway發佈新一代視頻生成模型Gen-4.5,顯著提升視覺準確性與創意控制能力。用戶通過簡短文本提示即可生成高清動態視頻,支持複雜場景與生動角色。該模型基於Nvidia GPU進行訓練與推理,優化生成精度與風格表現。
小米發佈7B參數多模態模型“Xiaomi-MiMo-VL-Miloco-7B-GGUF”及智能管家“Xiaomi Miloco”。系統通過米家攝像頭實時識別用戶活動與手勢,自動聯動智能家居設備,兼容Home Assistant協議。模型採用非商用開源許可,支持NVIDIA GPU與Docker環境一鍵部署。
微軟Azure ND GB300v6虛擬機在Llama270B模型上創下每秒110萬token推理速度新紀錄。該成就基於與英偉達的深度合作,採用配備72個Blackwell Ultra GPU和36個Grace CPU的NVIDIA GB300NVL72系統,突顯微軟在規模化AI運算領域的專業實力。
NVIDIA® GeForce RTX™ 5090是迄今為止最強大的GeForce GPU,為遊戲玩家和創作者帶來變革性能力。
NVIDIA GPU上加速LLM推理的創新技術
NVIDIA H200 NVL GPU,為AI和HPC應用加速
NVIDIA深度學習教學套件,助力教育者融入GPU課程。
Openai
$2.8
輸入tokens/百萬
$11.2
輸出tokens/百萬
1k
上下文長度
-
Bytedance
$0.8
$2
128
Alibaba
$0.4
$8.75
$70
400
$1.75
$14
$0.35
64
$0.63
$3.15
131
$1.8
$5.4
16
Tencent
32
$17.5
$56
$0.7
$2.4
$9.6
Google
$1.4
Qwen
Qwen3-VL-2B-Thinking是Qwen系列中最強大的視覺語言模型之一,採用GGUF格式權重,支持在CPU、NVIDIA GPU、Apple Silicon等設備上進行高效推理。該模型具備出色的多模態理解和推理能力,特別增強了視覺感知、空間理解和智能體交互功能。
TheStageAI
TheWhisper-Large-V3是OpenAI Whisper Large V3模型的高性能微調版本,由TheStage AI針對多平臺(NVIDIA GPU和Apple Silicon)的即時、低延遲和低功耗語音轉文本推理進行了優化。
RedHatAI
這是NVIDIA-Nemotron-Nano-9B-v2模型的FP8動態量化版本,通過將權重和激活量化為FP8數據類型實現優化,顯著減少磁盤大小和GPU內存需求約50%,同時保持出色的文本生成性能。
nvidia
NVIDIA Qwen2.5-VL-7B-Instruct-FP4是阿里巴巴Qwen2.5-VL-7B-Instruct模型的量化版本,採用優化的Transformer架構,支持多模態輸入(文本和圖像),適用於多種AI應用場景。該模型通過TensorRT Model Optimizer進行FP4量化,在NVIDIA GPU上提供高效的推理性能。
NVIDIA Qwen3-14B FP4模型是阿里巴巴Qwen3-14B模型的量化版本,採用FP4數據類型進行優化,通過TensorRT-LLM進行高效推理。該模型專為NVIDIA GPU加速系統設計,適用於AI Agent系統、聊天機器人、RAG系統等多種AI應用場景,支持全球範圍內的商業和非商業使用。
NVIDIA Qwen3-14B FP4 模型是阿里雲 Qwen3-14B 模型的量化版本,採用優化的 Transformer 架構,是一個自迴歸語言模型。該模型使用 TensorRT Model Optimizer 進行量化,將權重和激活量化為 FP4 數據類型,可在 NVIDIA GPU 加速系統上實現高效推理。
NVIDIA Qwen3-8B FP8 是阿里巴巴Qwen3-8B模型的量化版本,採用優化的Transformer架構,屬於自迴歸語言模型。該模型通過FP8量化技術優化,可在NVIDIA GPU上實現高效推理,支持商業和非商業用途。
jet-ai
Jet-Nemotron-4B是NVIDIA推出的高效混合架構語言模型,基於後神經架構搜索和JetBlock線性注意力模塊兩大核心創新構建,在性能上超越了Qwen3、Qwen2.5、Gemma3和Llama3.2等開源模型,同時在H100 GPU上實現了最高53.6倍的生成吞吐量加速。
ESM-2是NVIDIA基於TransformerEngine優化的蛋白質語言模型,能夠從氨基酸序列預測蛋白質3D結構。該模型採用掩碼語言建模目標訓練,在NVIDIA GPU上具有更快的訓練和推理速度。
NVIDIA DeepSeek R1 FP4 v2是基於DeepSeek AI的DeepSeek R1模型進行FP4量化的文本生成模型,採用優化的Transformer架構,可用於商業和非商業用途。該模型通過TensorRT Model Optimizer進行量化,相比FP8版本顯著減少了磁盤大小和GPU內存需求。
NVIDIA DeepSeek-R1-0528-FP4 v2是DeepSeek R1 0528模型的量化版本,採用優化的Transformer架構,是一個自迴歸語言模型。通過FP4量化優化,減少了磁盤大小和GPU內存需求,同時保持較高推理效率。
NVIDIA Qwen3-30B-A3B FP4模型是阿里雲Qwen3-30B-A3B模型的量化版本,採用優化的Transformer架構,是自迴歸語言模型。該模型使用TensorRT Model Optimizer進行FP4量化,將每個參數的比特數從16位減少到4位,使磁盤大小和GPU內存需求減少約3.3倍,同時保持較高的性能表現。
NVIDIA Qwen3-235B-A22B FP4模型是阿里雲Qwen3-235B-A22B模型的量化版本,採用優化的Transformer架構,是一種自迴歸語言模型。該模型通過FP4量化技術將參數從16位減少到4位,使磁盤大小和GPU內存需求減少約3.3倍,同時保持較高的準確性和性能。
NVIDIA Qwen3-235B-A22B FP8模型是阿里雲Qwen3-235B-A22B模型的量化版本,採用優化的Transformer架構,是一個自迴歸語言模型。該模型通過FP8量化技術顯著減少了磁盤空間和GPU內存需求,同時保持較高的推理精度,適用於各種AI應用場景。
NVIDIA DeepSeek-R1-0528-FP4 是 DeepSeek R1 0528 模型的量化版本,採用優化的 Transformer 架構,權重和激活值量化為 FP4 數據類型,顯著減少磁盤大小和 GPU 內存需求,支持 TensorRT-LLM 推理引擎實現高效推理。
NVIDIA DeepSeek R1 FP4 模型是 DeepSeek AI 的 DeepSeek R1 模型的量化版本,使用優化 Transformer 架構的自迴歸語言模型。該模型通過 FP4 量化技術將參數位數從 8 位減少到 4 位,使磁盤大小和 GPU 內存需求減少約 1.6 倍,同時保持較高的精度性能。
microsoft
Phi-3 Small是一個70億參數的輕量級前沿開源模型,針對NVIDIA GPU優化的ONNX版本,支持8K上下文長度,具備強推理能力。