Runway發佈最新視頻生成模型Gen-4.5,專爲創作者、影視製作人和企業用戶設計,即將向所有訂閱層級開放。該模型在文本轉視頻基準測試中以1247分領先,超越谷歌Veo3等競品,成爲當前最強文生視頻模型。其卓越性能得益於先進的NVIDIA Hopper與Blackwell GPU平臺支持。
英偉達在NeurIPS大會上推出新AI基礎設施和模型,推動物理AI發展,助力機器人和自動駕駛車輛感知真實世界。重點發布Alpamayo-R1,首個專爲自動駕駛設計的開放推理視覺語言模型,能處理文本與圖像,提升車輛環境感知能力。
Runway發佈新一代視頻生成模型Gen-4.5,顯著提升視覺準確性與創意控制能力。用戶通過簡短文本提示即可生成高清動態視頻,支持複雜場景與生動角色。該模型基於Nvidia GPU進行訓練與推理,優化生成精度與風格表現。
NVIDIA推出ToolOrchestra方法,通過訓練小型語言模型Orchestrator-8B作爲“大腦”,提升AI系統選擇合適模型和工具的能力,避免依賴單一大型模型。該方法旨在解決傳統AI代理使用單一模型時可能出現的決策偏差問題,實現更高效的任務處理。
NVIDIA GeForce RTX 5070 Ti顯卡,採用Blackwell架構,支持DLSS 4技術,為遊戲和創作帶來強大性能。
將PDF轉換為音頻內容,打造個性化的AI有聲讀物。
NVIDIA® GeForce RTX™ 5090是迄今為止最強大的GeForce GPU,為遊戲玩家和創作者帶來變革性能力。
NVIDIA-Ingest是用於文檔內容和元數據提取的微服務。
kayte0342
ChronoEdit-14B是NVIDIA開發的一款具備時間推理能力的圖像編輯和世界模擬模型,擁有140億參數。它通過兩階段推理過程實現物理感知的圖像編輯和基於動作條件的世界模擬,從預訓練視頻生成模型中提煉先驗知識。
nvidia
NVIDIA Nemotron Parse v1.1 TC 是一款先進的文檔語義理解模型,能夠從圖像中提取具有空間定位的文本和表格元素,生成結構化註釋,包括格式化文本、邊界框和語義類別。相比前一版本,速度提升20%,並保留無序元素的頁面順序。
NVIDIA Nemotron Parse v1.1 是一款先進的文檔解析模型,專門用於理解文檔語義並提取具有空間定位的文本和表格元素。它能夠將非結構化文檔轉換為機器可讀的結構化表示,克服了傳統OCR在處理複雜文檔佈局時的侷限性。
samwell
NV-Reason-CXR-3B GGUF是NVIDIA NV-Reason-CXR-3B視覺語言模型的量化版本,專為邊緣設備部署優化。這是一個30億參數的模型,專注於胸部X光分析,已轉換為GGUF格式並進行量化處理,可在移動設備、桌面設備和嵌入式系統上高效運行。
DevQuasar
這是NVIDIA基於Qwen3架構開發的32B參數獎勵模型,專門用於強化學習中的獎勵評分和原則對齊,幫助訓練更安全、更符合人類價值觀的AI系統。
bartowski
這是英偉達Qwen3-Nemotron-32B-RLBFF大語言模型的GGUF量化版本,使用llama.cpp工具進行多種精度量化,提供從BF16到IQ2_XXS共20多種量化選項,適用於不同硬件配置和性能需求。
QuantStack
這是NVIDIA ChronoEdit-14B-Diffusers模型的GGUF量化版本,專門用於圖像轉視頻任務。該模型保留了原始模型的所有功能,同時通過GGUF格式優化了部署和運行效率。
Qwen
Qwen3-VL-2B-Thinking是Qwen系列中最強大的視覺語言模型之一,採用GGUF格式權重,支持在CPU、NVIDIA GPU、Apple Silicon等設備上進行高效推理。該模型具備出色的多模態理解和推理能力,特別增強了視覺感知、空間理解和智能體交互功能。
TheStageAI
TheWhisper-Large-V3是OpenAI Whisper Large V3模型的高性能微調版本,由TheStage AI針對多平臺(NVIDIA GPU和Apple Silicon)的即時、低延遲和低功耗語音轉文本推理進行了優化。
NVIDIA-Nemotron-Nano-VL-12B-V2-FP4-QAD 是 NVIDIA 推出的自迴歸視覺語言模型,基於優化的 Transformer 架構,能夠同時處理圖像和文本輸入。該模型採用 FP4 量化技術,在保持性能的同時顯著減少模型大小和推理成本,適用於多種多模態應用場景。
NVIDIA-Nemotron-Nano-VL-12B-V2-FP8 是 NVIDIA 推出的量化視覺語言模型,採用優化的 Transformer 架構,在商業圖像上進行了三階段訓練。該模型支持單圖像推理,具備多語言和多模態處理能力,適用於圖像總結、文本圖像分析等多種場景。
BR-RM是一種創新的兩輪推理獎勵模型,通過自適應分支和基於分支的反思機制,解決了傳統獎勵模型中的'判斷擴散'問題,在多個獎勵建模基準測試中取得了業界領先的性能。
NVIDIA Nemotron Nano v2 12B VL是一款強大的多模態視覺語言模型,支持多圖像推理和視頻理解,具備文檔智能、視覺問答和摘要功能,可用於商業用途。
Tacoin
這是Tacoin基於NVIDIA GR00T模型在LIBERO libero long基準測試上進行微調的機器人操作模型。該模型採用雙RGB流和8自由度狀態輸入,能夠預測16步關節空間動作,專門用於長視野機器人操作任務。
Llama Nemotron Reranking 1B是NVIDIA開發的專門用於文本檢索重排序的模型,基於Llama-3.2-1B架構微調,能夠為查詢-文檔對提供相關性對數得分,支持多語言和長文檔處理。
Llama Nemotron Embedding 1B模型是NVIDIA開發的專為多語言和跨語言文本問答檢索優化的嵌入模型,支持26種語言,能夠處理長達8192個標記的文檔,並可通過動態嵌入大小大幅減少數據存儲佔用。
Nemotron-Flash-3B 是英偉達推出的新型混合小型語言模型,專門針對實際應用中的低延遲需求設計。該模型在數學、編碼和常識推理等任務中展現出卓越性能,同時具備出色的小批量低延遲和大批量高吞吐量特性。
Qwen3-Nemotron-32B-RLBFF是基於Qwen/Qwen3-32B微調的大語言模型,通過強化學習反饋技術顯著提升了模型在默認思維模式下生成回覆的質量。該模型在多個基準測試中表現出色,同時保持較低的推理成本。
NVIDIA GPT-OSS-120B Eagle3是基於OpenAI gpt-oss-120b模型的優化版本,採用混合專家(MoE)架構,具備1200億總參數和50億激活參數。該模型支持商業和非商業使用,適用於文本生成任務,特別適合AI Agent系統、聊天機器人等應用開發。
RedHatAI
這是NVIDIA-Nemotron-Nano-9B-v2模型的FP8動態量化版本,通過將權重和激活量化為FP8數據類型實現優化,顯著減少磁盤大小和GPU內存需求約50%,同時保持出色的文本生成性能。
一個基於NVIDIA USDCode API的MCP服務器,提供Isaac Sim腳本編寫、USD操作、Python代碼片段和API使用幫助的AI助手工具。
Brev MCP服務器實現,使用Brev CLI的API訪問令牌和當前組織配置,支持快速啟動和開發調試。
Isaac Sim MCP擴展通過自然語言控制NVIDIA Isaac Sim,實現機器人模擬、場景創建和動態交互,連接MCP生態與具身智能應用。
一個基於FastMCP庫的MCP服務器項目,用於通過網絡客戶端使用自然語言監控和遠程控制Nvidia Jetson開發板。
JetsonMCP是一個通過SSH連接管理NVIDIA Jetson Nano邊緣計算設備的MCP服務器,提供AI工作負載優化、硬件配置和系統管理功能,支持自然語言指令轉換為專業操作命令。
JetsonMCP是一個MCP服務器,通過SSH連接幫助AI助手管理和優化NVIDIA Jetson Nano邊緣計算系統,提供AI工作負載部署、硬件優化和系統管理功能。