英伟达发布Nemotron 3系列,融合Mamba与Transformer架构,高效处理长上下文并降低资源消耗。该系列专为自主执行复杂任务的AI代理系统设计,包含Nano、Super、Ultra三款型号。目前Nano已上市,Super和Ultra预计2026年上半年推出。
Nvidia近期收购开源工作负载管理系统Slurm的主要开发者SchedMD,并推出新一代开放AI模型Nemotron 3系列。此举旨在推动开源技术发展,支持高性能计算和人工智能创新。Slurm自2002年推出以来,已成为高性能计算和AI领域的重要工具。
英伟达加速构建AI生态,本周宣布收购高性能计算调度系统Slurm开发商SchedMD,并发布开源大模型家族Nemotron 3,全面押注AI智能体与物理智能。Slurm作为全球主流超算调度系统,将强化英伟达基础设施层实力。
Nvidia发布小型语言模型Nemotron-Nano-9B-v2,拥有9亿参数,较原版12亿大幅缩减,旨在单台A10GPU高效运行。该模型采用混合架构,适应实际部署需求,推动小型模型发展。
一款高效的推理与聊天大语言模型。
将Common Crawl转化为精细的长期预训练数据集
多模态语音大型语言模型
由NVIDIA定制的大型语言模型,提升查询回答的帮助性。
nvidia
NVIDIA Nemotron Parse v1.1 TC 是一款先进的文档语义理解模型,能够从图像中提取具有空间定位的文本和表格元素,生成结构化注释,包括格式化文本、边界框和语义类别。相比前一版本,速度提升20%,并保留无序元素的页面顺序。
NVIDIA Nemotron Parse v1.1 是一款先进的文档解析模型,专门用于理解文档语义并提取具有空间定位的文本和表格元素。它能够将非结构化文档转换为机器可读的结构化表示,克服了传统OCR在处理复杂文档布局时的局限性。
NVIDIA Nemotron Nano v2 12B VL是一款强大的多模态视觉语言模型,支持多图像推理和视频理解,具备文档智能、视觉问答和摘要功能,可用于商业用途。
Llama Nemotron Reranking 1B是NVIDIA开发的专门用于文本检索重排序的模型,基于Llama-3.2-1B架构微调,能够为查询-文档对提供相关性对数得分,支持多语言和长文档处理。
Llama Nemotron Embedding 1B模型是NVIDIA开发的专为多语言和跨语言文本问答检索优化的嵌入模型,支持26种语言,能够处理长达8192个标记的文档,并可通过动态嵌入大小大幅减少数据存储占用。
Nemotron-Flash-3B 是英伟达推出的新型混合小型语言模型,专门针对实际应用中的低延迟需求设计。该模型在数学、编码和常识推理等任务中展现出卓越性能,同时具备出色的小批量低延迟和大批量高吞吐量特性。
mlx-community
这是一个基于NVIDIA Nemotron架构的49B参数大语言模型,已转换为MLX格式并进行了4位量化,专门为Apple Silicon芯片优化,提供高效的文本生成能力。
unsloth
NVIDIA Nemotron Nano 9B v2 是 NVIDIA 开发的一款高性能大语言模型,采用 Mamba2-Transformer 混合架构,支持多语言推理和聊天任务,在多个基准测试中表现优异,特别支持运行时'思考'预算控制功能。
Mungert
NVIDIA Nemotron Nano 12B v2是由NVIDIA开发的大语言模型,采用Mamba2-Transformer混合架构,具有120亿参数。该模型支持多语言处理,在多个基准测试中表现出色,特别擅长推理任务,支持运行时推理预算控制。
cpatonn
NVIDIA Nemotron Nano 12B v2是由NVIDIA从头训练的大型语言模型,专为推理和非推理任务设计。采用混合Mamba2-Transformer架构,支持多语言,具备可控推理能力,可根据用户需求生成推理过程或直接给出答案。
QuantFactory
这是 NVIDIA Nemotron Nano 12B v2 模型的 GGUF 量化版本,采用混合 Mamba-2 和 Transformer 架构,支持多语言推理和聊天功能,具有 120 亿参数,支持长达 128K 的上下文长度。
bartowski
这是NVIDIA Nemotron-Nano-12B-v2模型的Llamacpp imatrix量化版本,提供多种量化选项,从BF16到极低比特率的IQ2量化,帮助用户在不同硬件条件下高效运行该模型。
这是NVIDIA Nemotron-H-47B-Reasoning-128K模型的量化版本,使用llama.cpp的imatrix技术进行优化。该模型支持128K上下文长度,专为推理任务设计,提供了从BF16到极低比特率的多种量化选项,适合不同硬件配置和性能需求。
这是NVIDIA Nemotron-H-8B-Reasoning-128K模型的Llamacpp imatrix量化版本,提供多种量化类型的模型文件,以满足不同硬件和性能需求。支持128K上下文长度,专为推理任务优化。
这是NVIDIA Nemotron-Nano-9B-v2模型的量化版本,使用llama.cpp b6317版本进行量化处理。该模型提供了多种量化选项,包括bf16、Q8_0、Q6_K_L等,适用于不同的硬件和使用场景,方便用户部署和使用。
这是NVIDIA Nemotron Nano 9B v2模型的4位量化版本,专为Apple Silicon优化,使用MLX框架转换。该模型是一个9B参数的大型语言模型,支持多语言文本生成任务。
NVIDIA Nemotron Nano 12B v2 是由 NVIDIA 从零开始训练的大语言模型,专为推理和非推理任务设计。该模型采用混合架构,结合 Mamba-2 和注意力层,支持多语言处理,并可通过系统提示控制推理能力。
grimjim
Magnolia-v3-medis-remix-12B-GGUF是基于mergekit技术合并的12B参数量化模型,以Mistral Nemo为主要组件,融合了医学微调作为噪声组件,适用于文本生成任务,采用Apache-2.0许可证。
NVIDIA OpenReasoning - Nemotron - 32B的量化版本,通过llama.cpp进行量化处理,减少模型存储和计算资源需求,便于部署。
lmstudio-community
这是英伟达OpenReasoning Nemotron 14B的量化版本,由bartowski基于llama.cpp提供GGUF量化。