英偉達發佈Nemotron 3系列,融合Mamba與Transformer架構,高效處理長上下文並降低資源消耗。該系列專爲自主執行復雜任務的AI代理系統設計,包含Nano、Super、Ultra三款型號。目前Nano已上市,Super和Ultra預計2026年上半年推出。
Nvidia近期收購開源工作負載管理系統Slurm的主要開發者SchedMD,並推出新一代開放AI模型Nemotron 3系列。此舉旨在推動開源技術發展,支持高性能計算和人工智能創新。Slurm自2002年推出以來,已成爲高性能計算和AI領域的重要工具。
英偉達加速構建AI生態,本週宣佈收購高性能計算調度系統Slurm開發商SchedMD,併發布開源大模型家族Nemotron 3,全面押注AI智能體與物理智能。Slurm作爲全球主流超算調度系統,將強化英偉達基礎設施層實力。
Nvidia發佈小型語言模型Nemotron-Nano-9B-v2,擁有9億參數,較原版12億大幅縮減,旨在單臺A10GPU高效運行。該模型採用混合架構,適應實際部署需求,推動小型模型發展。
一款高效的推理與聊天大語言模型。
將Common Crawl轉化為精細的長期預訓練數據集
多模態語音大型語言模型
由NVIDIA定製的大型語言模型,提升查詢回答的幫助性。
nvidia
NVIDIA Nemotron Parse v1.1 TC 是一款先進的文檔語義理解模型,能夠從圖像中提取具有空間定位的文本和表格元素,生成結構化註釋,包括格式化文本、邊界框和語義類別。相比前一版本,速度提升20%,並保留無序元素的頁面順序。
NVIDIA Nemotron Parse v1.1 是一款先進的文檔解析模型,專門用於理解文檔語義並提取具有空間定位的文本和表格元素。它能夠將非結構化文檔轉換為機器可讀的結構化表示,克服了傳統OCR在處理複雜文檔佈局時的侷限性。
NVIDIA Nemotron Nano v2 12B VL是一款強大的多模態視覺語言模型,支持多圖像推理和視頻理解,具備文檔智能、視覺問答和摘要功能,可用於商業用途。
Llama Nemotron Reranking 1B是NVIDIA開發的專門用於文本檢索重排序的模型,基於Llama-3.2-1B架構微調,能夠為查詢-文檔對提供相關性對數得分,支持多語言和長文檔處理。
Llama Nemotron Embedding 1B模型是NVIDIA開發的專為多語言和跨語言文本問答檢索優化的嵌入模型,支持26種語言,能夠處理長達8192個標記的文檔,並可通過動態嵌入大小大幅減少數據存儲佔用。
Nemotron-Flash-3B 是英偉達推出的新型混合小型語言模型,專門針對實際應用中的低延遲需求設計。該模型在數學、編碼和常識推理等任務中展現出卓越性能,同時具備出色的小批量低延遲和大批量高吞吐量特性。
mlx-community
這是一個基於NVIDIA Nemotron架構的49B參數大語言模型,已轉換為MLX格式並進行了4位量化,專門為Apple Silicon芯片優化,提供高效的文本生成能力。
unsloth
NVIDIA Nemotron Nano 9B v2 是 NVIDIA 開發的一款高性能大語言模型,採用 Mamba2-Transformer 混合架構,支持多語言推理和聊天任務,在多個基準測試中表現優異,特別支持運行時'思考'預算控制功能。
Mungert
NVIDIA Nemotron Nano 12B v2是由NVIDIA開發的大語言模型,採用Mamba2-Transformer混合架構,具有120億參數。該模型支持多語言處理,在多個基準測試中表現出色,特別擅長推理任務,支持運行時推理預算控制。
cpatonn
NVIDIA Nemotron Nano 12B v2是由NVIDIA從頭訓練的大型語言模型,專為推理和非推理任務設計。採用混合Mamba2-Transformer架構,支持多語言,具備可控推理能力,可根據用戶需求生成推理過程或直接給出答案。
QuantFactory
這是 NVIDIA Nemotron Nano 12B v2 模型的 GGUF 量化版本,採用混合 Mamba-2 和 Transformer 架構,支持多語言推理和聊天功能,具有 120 億參數,支持長達 128K 的上下文長度。
bartowski
這是NVIDIA Nemotron-Nano-12B-v2模型的Llamacpp imatrix量化版本,提供多種量化選項,從BF16到極低比特率的IQ2量化,幫助用戶在不同硬件條件下高效運行該模型。
這是NVIDIA Nemotron-H-47B-Reasoning-128K模型的量化版本,使用llama.cpp的imatrix技術進行優化。該模型支持128K上下文長度,專為推理任務設計,提供了從BF16到極低比特率的多種量化選項,適合不同硬件配置和性能需求。
這是NVIDIA Nemotron-H-8B-Reasoning-128K模型的Llamacpp imatrix量化版本,提供多種量化類型的模型文件,以滿足不同硬件和性能需求。支持128K上下文長度,專為推理任務優化。
這是NVIDIA Nemotron-Nano-9B-v2模型的量化版本,使用llama.cpp b6317版本進行量化處理。該模型提供了多種量化選項,包括bf16、Q8_0、Q6_K_L等,適用於不同的硬件和使用場景,方便用戶部署和使用。
這是NVIDIA Nemotron Nano 9B v2模型的4位量化版本,專為Apple Silicon優化,使用MLX框架轉換。該模型是一個9B參數的大型語言模型,支持多語言文本生成任務。
NVIDIA Nemotron Nano 12B v2 是由 NVIDIA 從零開始訓練的大語言模型,專為推理和非推理任務設計。該模型採用混合架構,結合 Mamba-2 和注意力層,支持多語言處理,並可通過系統提示控制推理能力。
grimjim
Magnolia-v3-medis-remix-12B-GGUF是基於mergekit技術合併的12B參數量化模型,以Mistral Nemo為主要組件,融合了醫學微調作為噪聲組件,適用於文本生成任務,採用Apache-2.0許可證。
NVIDIA OpenReasoning - Nemotron - 32B的量化版本,通過llama.cpp進行量化處理,減少模型存儲和計算資源需求,便於部署。
lmstudio-community
這是英偉達OpenReasoning Nemotron 14B的量化版本,由bartowski基於llama.cpp提供GGUF量化。