近日,NVIDIA正式宣布与Meta建立一项为期多年、跨世代的战略合作伙伴关系。根据双方达成的协议内容,Meta计划在其超大规模的AI数据中心内部署数百万颗NVIDIA的Blackwell GPU,以及专为智能体AI推理量身打造的下一代Rubin架构GPU,以强化其AI算力基础。
OpenAI加速推进“去英伟达化”战略,于2026年2月12日发布首款基于Cerebras芯片的AI模型GPT-5.3-Codex-Spark。该模型专为软件工程师设计,提供更灵活的交互体验,支持即时中断与切换,使开发者能随时暂停冗长计算,快速处理其他紧急编码任务。
字节跳动正加速自研AI芯片“SeedChip”,计划今年量产至少10万颗,主要面向推理任务,以保障AI算力供应。尽管公司称相关报道“不准确”,但其今年AI采购预算已超1600亿元,半数仍用于购买英伟达芯片,反映出在推进大模型时面临的高推理成本压力。
英伟达为3万名工程师部署生成式AI编码工具,与初创公司Anysphere合作定制方案,标志着其从提供AI算力转向深度应用AI辅助设计,实现技术闭环与生产力跃迁。
Bytedance
$0.8
Input tokens/M
$8
Output tokens/M
256
Context Length
Chatglm
$2
128
$0.5
-
Anthropic
$21
$105
200
Tencent
$4
28
Alibaba
131
$2.4
$9.6
32
Deepseek
8
$1
Openai
$84
$420
Moonshot
$32
262
Baidu
bartowski
这是英伟达Qwen3-Nemotron-32B-RLBFF大语言模型的GGUF量化版本,使用llama.cpp工具进行多种精度量化,提供从BF16到IQ2_XXS共20多种量化选项,适用于不同硬件配置和性能需求。
nvidia
Nemotron-Flash-3B 是英伟达推出的新型混合小型语言模型,专门针对实际应用中的低延迟需求设计。该模型在数学、编码和常识推理等任务中展现出卓越性能,同时具备出色的小批量低延迟和大批量高吞吐量特性。
lmstudio-community
这是英伟达OpenReasoning Nemotron 14B的量化版本,由bartowski基于llama.cpp提供GGUF量化。
这是英伟达OpenReasoning Nemotron 7B模型的GGUF量化版本,专门用于文本生成任务。该模型通过LM Studio社区模型亮点计划提供,支持高效的推理和部署。
英伟达推出的高性能7B参数语言模型,专注于数学和代码推理任务,支持128k上下文长度。
基于英伟达AceReason-Nemotron-7B的GGUF量化版本,专注于数学与代码推理,支持128k tokens长上下文
基于英伟达AceReason-Nemotron-14B的GGUF量化版本,专注于数学与代码推理任务,支持128k tokens长上下文
DevQuasar
Cosmos-Reason1-7B是英伟达发布的7B参数规模的基础模型,专注于图文转文本任务。
Nemotron-Flash-3B是英伟达开发的新型混合小型语言模型,专为低延迟应用设计,在数学、编码和常识推理等任务上表现出色,具有优异的性能和效率平衡。
由英伟达发布的4B参数规模大语言模型,支持128k tokens上下文长度,专为推理、对话及RAG等任务优化
Nemotron-H-56B-Base-8K是英伟达开发的大型语言模型,采用混合Mamba-Transformer架构,支持8K上下文长度和多语言文本生成。
英伟达Isaac GR00T N1是全球首个面向通用人形机器人推理与技能的开源基础模型,具有20亿参数规模。
基于英伟达AceInstruct-7B模型的量化版本,使用llama.cpp进行量化,支持多种量化类型,适用于代码、数学和通用领域任务。
AceMath-7B-Instruct是英伟达推出的专为数学推理设计的指导模型,基于改进版Qwen架构开发,擅长通过思维链(CoT)推理解决英文数学问题。
Raj-Maharajwala
基于英伟达Llama 3 - ChatQA的保险领域特定语言模型的GGUF量化版本,针对保险相关的查询和对话进行了微调。
英伟达定制的大型语言模型,旨在提升大语言模型生成回复对用户查询的有用性。
Nemotron-Mini-4B-Instruct是英伟达开发的专为角色扮演、检索增强生成和函数调用优化的响应生成模型,基于Minitron-4B-Base微调,支持4096个token的上下文长度。