Runway发布最新视频生成模型Gen-4.5,专为创作者、影视制作人和企业用户设计,即将向所有订阅层级开放。该模型在文本转视频基准测试中以1247分领先,超越谷歌Veo3等竞品,成为当前最强文生视频模型。其卓越性能得益于先进的NVIDIA Hopper与Blackwell GPU平台支持。
Runway发布新一代视频生成模型Gen-4.5,显著提升视觉准确性与创意控制能力。用户通过简短文本提示即可生成高清动态视频,支持复杂场景与生动角色。该模型基于Nvidia GPU进行训练与推理,优化生成精度与风格表现。
小米发布7B参数多模态模型“Xiaomi-MiMo-VL-Miloco-7B-GGUF”及智能管家“Xiaomi Miloco”。系统通过米家摄像头实时识别用户活动与手势,自动联动智能家居设备,兼容Home Assistant协议。模型采用非商用开源许可,支持NVIDIA GPU与Docker环境一键部署。
微软Azure ND GB300v6虚拟机在Llama270B模型上创下每秒110万token推理速度新纪录。该成就基于与英伟达的深度合作,采用配备72个Blackwell Ultra GPU和36个Grace CPU的NVIDIA GB300NVL72系统,突显微软在规模化AI运算领域的专业实力。
NVIDIA® GeForce RTX™ 5090是迄今为止最强大的GeForce GPU,为游戏玩家和创作者带来变革性能力。
NVIDIA GPU上加速LLM推理的创新技术
NVIDIA H200 NVL GPU,为AI和HPC应用加速
NVIDIA深度学习教学套件,助力教育者融入GPU课程。
Openai
$2.8
输入tokens/百万
$11.2
输出tokens/百万
1k
上下文长度
-
Bytedance
$0.8
$2
128
Alibaba
$0.4
$8.75
$70
400
$1.75
$14
$0.35
64
$0.63
$3.15
131
$1.8
$5.4
16
Tencent
32
$17.5
$56
$0.7
$2.4
$9.6
Google
$0.14
$0.28
Qwen
Qwen3-VL-2B-Thinking是Qwen系列中最强大的视觉语言模型之一,采用GGUF格式权重,支持在CPU、NVIDIA GPU、Apple Silicon等设备上进行高效推理。该模型具备出色的多模态理解和推理能力,特别增强了视觉感知、空间理解和智能体交互功能。
TheStageAI
TheWhisper-Large-V3是OpenAI Whisper Large V3模型的高性能微调版本,由TheStage AI针对多平台(NVIDIA GPU和Apple Silicon)的实时、低延迟和低功耗语音转文本推理进行了优化。
RedHatAI
这是NVIDIA-Nemotron-Nano-9B-v2模型的FP8动态量化版本,通过将权重和激活量化为FP8数据类型实现优化,显著减少磁盘大小和GPU内存需求约50%,同时保持出色的文本生成性能。
nvidia
NVIDIA Qwen2.5-VL-7B-Instruct-FP4是阿里巴巴Qwen2.5-VL-7B-Instruct模型的量化版本,采用优化的Transformer架构,支持多模态输入(文本和图像),适用于多种AI应用场景。该模型通过TensorRT Model Optimizer进行FP4量化,在NVIDIA GPU上提供高效的推理性能。
NVIDIA Qwen3-14B FP4模型是阿里巴巴Qwen3-14B模型的量化版本,采用FP4数据类型进行优化,通过TensorRT-LLM进行高效推理。该模型专为NVIDIA GPU加速系统设计,适用于AI Agent系统、聊天机器人、RAG系统等多种AI应用场景,支持全球范围内的商业和非商业使用。
NVIDIA Qwen3-14B FP4 模型是阿里云 Qwen3-14B 模型的量化版本,采用优化的 Transformer 架构,是一个自回归语言模型。该模型使用 TensorRT Model Optimizer 进行量化,将权重和激活量化为 FP4 数据类型,可在 NVIDIA GPU 加速系统上实现高效推理。
NVIDIA Qwen3-8B FP8 是阿里巴巴Qwen3-8B模型的量化版本,采用优化的Transformer架构,属于自回归语言模型。该模型通过FP8量化技术优化,可在NVIDIA GPU上实现高效推理,支持商业和非商业用途。
jet-ai
Jet-Nemotron-4B是NVIDIA推出的高效混合架构语言模型,基于后神经架构搜索和JetBlock线性注意力模块两大核心创新构建,在性能上超越了Qwen3、Qwen2.5、Gemma3和Llama3.2等开源模型,同时在H100 GPU上实现了最高53.6倍的生成吞吐量加速。
ESM-2是NVIDIA基于TransformerEngine优化的蛋白质语言模型,能够从氨基酸序列预测蛋白质3D结构。该模型采用掩码语言建模目标训练,在NVIDIA GPU上具有更快的训练和推理速度。
NVIDIA DeepSeek R1 FP4 v2是基于DeepSeek AI的DeepSeek R1模型进行FP4量化的文本生成模型,采用优化的Transformer架构,可用于商业和非商业用途。该模型通过TensorRT Model Optimizer进行量化,相比FP8版本显著减少了磁盘大小和GPU内存需求。
NVIDIA DeepSeek-R1-0528-FP4 v2是DeepSeek R1 0528模型的量化版本,采用优化的Transformer架构,是一个自回归语言模型。通过FP4量化优化,减少了磁盘大小和GPU内存需求,同时保持较高推理效率。
NVIDIA Qwen3-30B-A3B FP4模型是阿里云Qwen3-30B-A3B模型的量化版本,采用优化的Transformer架构,是自回归语言模型。该模型使用TensorRT Model Optimizer进行FP4量化,将每个参数的比特数从16位减少到4位,使磁盘大小和GPU内存需求减少约3.3倍,同时保持较高的性能表现。
NVIDIA Qwen3-235B-A22B FP4模型是阿里云Qwen3-235B-A22B模型的量化版本,采用优化的Transformer架构,是一种自回归语言模型。该模型通过FP4量化技术将参数从16位减少到4位,使磁盘大小和GPU内存需求减少约3.3倍,同时保持较高的准确性和性能。
NVIDIA Qwen3-235B-A22B FP8模型是阿里云Qwen3-235B-A22B模型的量化版本,采用优化的Transformer架构,是一个自回归语言模型。该模型通过FP8量化技术显著减少了磁盘空间和GPU内存需求,同时保持较高的推理精度,适用于各种AI应用场景。
NVIDIA DeepSeek-R1-0528-FP4 是 DeepSeek R1 0528 模型的量化版本,采用优化的 Transformer 架构,权重和激活值量化为 FP4 数据类型,显著减少磁盘大小和 GPU 内存需求,支持 TensorRT-LLM 推理引擎实现高效推理。
NVIDIA DeepSeek R1 FP4 模型是 DeepSeek AI 的 DeepSeek R1 模型的量化版本,使用优化 Transformer 架构的自回归语言模型。该模型通过 FP4 量化技术将参数位数从 8 位减少到 4 位,使磁盘大小和 GPU 内存需求减少约 1.6 倍,同时保持较高的精度性能。
microsoft
Phi-3 Small是一个70亿参数的轻量级前沿开源模型,针对NVIDIA GPU优化的ONNX版本,支持8K上下文长度,具备强推理能力。