中国AI公司月之暗面在达沃斯论坛宣布,其Kimi模型仅用美国顶尖实验室1%的计算资源,便研发出性能领先的开源大模型,部分指标超越美国闭源模型,展示了高效创新的技术路径。
OpenAI首席财务官透露公司正经历指数级增长,服务能力与计算资源高度相关。数据中心容量从2023年的0.2GW增至2024年的0.6GW,预计2025年达1.9GW,三年增长9.5倍,算力扩张直接驱动业务发展。
DeepSeek团队推出Engram模块,为稀疏大语言模型引入“条件记忆轴”,旨在解决传统Transformer处理重复知识时计算资源浪费的问题。该模块作为混合专家模型的补充,将N-gram嵌入技术融入模型,提升处理重复模式的效率。
OpenAI低调发布GPT-5.2,通过实测视频展示其强大能力:AI在180秒内零错误生成50页季度汇报,包括模板、数据、配图和备注。CEO承诺用户每周可节省至少10小时。技术上首次融合“混合专家”与“动态缓存”于同一权重,输入时动态分配计算资源,显著提升效率与准确性。
计算机使用代理资源集合
AI开发规模化的民主化平台
Run:ai为AI和深度学习工作负载优化和编排GPU计算资源。
轻松投资于精心策划的主题
Openai
$7.7
Input tokens/M
$30.8
Output tokens/M
200
Context Length
-
Anthropic
$21
$105
Tencent
$1
$4
32
Alibaba
$0.75
256
$1.75
$14
400
Chatglm
128
$0.3
$2
Google
$0.5
224
Deepseek
8
bartowski
这是kldzj的GPT-OSS-120B-Heretic-v2模型的量化版本,使用llama.cpp的imatrix技术进行量化处理。该模型通过量化技术显著减少了存储和计算资源需求,同时保持了较好的模型性能,便于在各种设备上部署运行。
labhamlet
WavJEPA是基于波形的联合嵌入预测架构的音频基础模型,利用高级语义表示学习解决语音单元或标记级表示学习的不足。在众多下游基准任务中显著优于最先进的时域音频基础模型,同时所需计算资源大幅减少。
noctrex
慧慧Qwen3-VL-8B指令消融模型的量化版本,专门用于图像文本到文本的转换任务。该模型基于Qwen3-VL-8B架构,经过指令消融优化和量化处理,可在保持性能的同时降低计算资源需求。
这是对internlm的JanusCoder-8B模型进行量化处理的版本,采用llama.cpp的imatrix量化技术,在保证性能的前提下显著减少模型的存储和计算资源需求,使模型能够在更多设备上高效运行。
cyankiwi
GLM-4.6 AWQ - INT4是GLM-4.6模型的4位量化版本,采用AWQ量化方法,在保持模型性能的同时显著减少了存储和计算资源需求。该模型支持200K上下文长度,在编码、推理和智能体任务方面相比GLM-4.5有显著提升。
cpatonn
Qwen3-VL-32B-Instruct AWQ - INT4是基于Qwen3-VL-32B-Instruct基础模型的4位量化版本,采用AWQ量化方法,在保持性能的同时显著减少存储和计算资源需求。这是Qwen系列中最强大的视觉语言模型,在文本理解、视觉感知、上下文长度等方面全面升级。
这是Cerebras公司Qwen3-Coder-REAP-25B-A3B模型的量化版本,使用llama.cpp的imatrix技术进行量化处理,能够在减少模型存储空间和计算资源需求的同时保持模型性能。
这是Llama-3.2-8X3B-MOE-Dark-Champion-Instruct-uncensored-abliterated-18.4B模型的MXFP4_MOE量化版本,专门针对文本生成任务进行优化,能够在保持性能的同时显著降低计算资源需求。
这是Qwen3-VL-4B-Thinking模型的量化版本,通过llama.cpp的imatrix量化方法在保证性能的同时大幅减少模型存储和计算资源需求,支持在各种硬件环境中部署使用。
这是Kwaipilot的KAT-Dev模型的量化版本,使用llama.cpp的imatrix量化技术处理,旨在提升模型在不同硬件环境下的运行效率和性能。该版本提供多种量化级别,从高质量到极致压缩,适应不同的内存和计算资源需求。
这是IBM Granite-4.0-H-Tiny模型的GGUF量化版本,使用llama.cpp进行多种精度量化处理,在保证性能的同时显著减少模型存储空间和计算资源需求,便于部署和运行。
inferencerlabs
GLM-4.6是基于MLX框架的高效文本生成模型,采用6.5bit量化技术,在保持高质量文本生成能力的同时显著降低计算资源需求。该模型在单台M3 Ultra设备上即可运行,支持高效的文本生成任务。
DevQuasar
Apertus-70B-Instruct-2509 是一个基于 swiss-ai 开发的 700 亿参数大语言模型的量化版本,专注于指令跟随和文本生成任务。该项目致力于免费分享知识,具有实验性质,提供了经过优化的量化模型以降低计算资源需求。
这是MistralAI Magistral Small 2509模型的量化版本,使用llama.cpp的imatrix技术进行量化处理。该版本在保持相对较好性能的同时,显著减少了模型的内存占用和计算资源需求,使其能够在各种硬件环境下运行。
Intel
基于Qwen3-Next-80B-A3B-Thinking模型,通过英特尔auto-round工具生成的混合int4量化模型。采用混合精度量化技术,非专家层回退到8位,在保证精度的同时显著降低计算资源需求,支持思维内容解析功能。
Qwen3-Next-80B-A3B-Instruct-AWQ-4bit是基于Qwen3-Next-80B-A3B-Instruct模型进行4位AWQ量化的高效版本。该模型采用混合注意力机制和高稀疏专家混合架构,支持长达262K tokens的上下文长度,在保持高性能的同时大幅降低计算资源需求。
llmat
Apertus-8B-Instruct-2509-NVFP4是基于swiss-ai/Apertus-8B-Instruct-2509的NVFP4量化版本,通过llmcompressor工具生成。该模型在保持性能的同时显著减少了存储空间和计算资源需求,提升了推理效率。
mradermacher
YanoljaNEXT-Rosetta-20B是多语言翻译模型,支持11种语言互译,包括英语、中文、日语、韩语等。该模型经过静态量化处理,提供多种量化版本,在保持翻译质量的同时显著减少模型大小和计算资源需求。
这是TheDrummer的Behemoth R1 123B v2模型的量化版本,使用llama.cpp和imatrix技术进行量化处理,可在保持较好性能的同时显著减少模型存储空间和计算资源需求,适合在不同设备上运行。
guyhadad01
all-MiniLM-L6-v2是sentence-transformers库中的一个高效句子嵌入模型,基于MiniLM架构构建。该模型专门针对句子和段落级别的语义相似度任务进行了优化,能够在保持较高性能的同时显著减少计算资源需求。
基于mcp-server的项目,支持AI大模型高效调用spinq的量子计算硬件资源,提供Windows和macOS的一键安装脚本,自动检测Python环境并安装依赖。
一个基于MCP协议的服务器实现,用于管理阿里云实时计算Flink资源,提供集群管理、作业部署、监控等功能。
该项目是一个基于Python的MCP服务器,提供程序化查询Azure资源定价的功能,通过结构化工作流从Azure零售价格API获取实时定价信息,支持计算月度成本。
这是一个专注于医疗领域的MCP服务器集合,涵盖了PubMed文献检索、医学预印本访问、FHIR数据交互、DICOM医学影像处理、蛋白质结构分析、医学计算工具以及医学教育资源整合等多种医疗相关的MCP服务实现。
Stay AI的MCP服务器,用于通过标准化工具和资源与物业管理系统API交互,支持物业搜索、预订管理、价格计算等功能。
RealVest的MCP服务器提供31个专业房地产投资计算器和教育资源,使AI助手能够直接访问专业级房地产分析功能,适用于集成到Claude等AI助手中。
这是一个用于Oracle云基础设施的MCP服务器项目,允许LLM直接管理OCI资源,支持动态配置文件切换、计算实例和数据库系统管理等功能
该仓库收集了与犹太文化相关的MCP服务器项目,包括犹太经典文本访问(如Sefaria和Otzaria)、犹太日历计算(Hebcal)以及以色列政府数据服务。这些项目通过MCP协议使大型语言模型能够获取犹太文化资源和实时数据。
一个基于Azure CLI的MCP服务器实现,提供对Azure云资源的程序化访问,支持多种Azure服务操作,包括计算、存储、网络、数据库等,并包含身份认证和安全管理功能。