性能优化专家Brendan Gregg加入OpenAI,将远程助力ChatGPT团队突破大模型算力瓶颈,其行业影响力引发广泛关注。
MongoDB推出Voyage AI模型系列,优化向量搜索性能,新增AI助手与自动嵌入功能,使数据库能理解语义并智能交互。核心突破在于提升数据语义理解精度,让开发者可通过自然语言查询数据,无需编写复杂查询语句。
OpenAI发布GPT-5.2-Codex,这是其最强的代理式编程模型,基于GPT-5.2系列,专为复杂长周期软件开发优化。模型将AI从代码助手升级为能自主处理工程任务的“代理”,在长程任务性能和可靠性上实现质的飞跃,并能理解超大规模代码库。
清华大学等机构推出UltraEval-Audio音频模型测评框架,为音频大模型评测提供系统化基础与一站式解决方案。最新v1.1.0版本在一键测评功能基础上进一步优化,助力研究者高效评估音频模型性能。
DeepSeek-V3/R1 推理系统是一个高性能的分布式推理架构,专为大规模 AI 模型优化设计。
Moonlight是一个16B参数的混合专家模型,使用Muon优化器训练,性能优异。
Steev 是一款用于优化 AI 模型训练的工具,帮助用户提升训练效率和模型性能。
百川智能开发的专为医疗场景优化的开源大语言模型,具备卓越的通用能力和医疗领域性能。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$2
$20
$6
$24
Baidu
128
Bytedance
$1.2
$3.6
4
MaziyarPanahi
这是NousResearch/Hermes-4.3-36B模型的GGUF量化格式版本,由MaziyarPanahi进行量化处理。GGUF是一种高效的模型格式,旨在优化本地部署和推理性能,支持多种量化级别(2位至8位),适用于广泛的文本生成任务。
T5B
Z-Image-Turbo 是经过 FP8 E5M2 和 E4M3FN 格式量化的图像处理模型,基于原始 Tongyi-MAI/Z-Image-Turbo 模型优化,在保持性能的同时显著减少模型大小和推理资源需求。
bartowski
这是微软Fara-7B模型的量化版本,使用llama.cpp的imatrix技术进行优化。该模型支持多种量化级别,从高精度的bf16到极低精度的IQ2_M,满足不同硬件配置和性能需求。
这是ArliAI的GLM-4.5-Air-Derestricted模型的GGUF量化版本,使用llama.cpp和imatrix技术进行优化量化处理,提供多种量化级别选择,适用于不同硬件配置和性能需求。
noctrex
这是一个基于Huihui-MiroThinker-v1.0-30B模型进行的MXFP4_MOE imatrix量化版本,专门针对文本生成任务优化,在保持模型性能的同时显著减小了模型体积和推理成本。
这是TheDrummer的Snowpiercer-15B-v4模型的量化版本,使用llama.cpp和imatrix技术进行量化处理。该版本提供了从BF16到IQ2_S等多种量化级别,满足不同硬件条件和性能需求的用户。模型使用特定数据集进行校准优化,支持在线重打包功能以提升在ARM和AVX硬件上的性能。
nightmedia
GLM-4.5-Air-REAP-82B-A12B-mxfp4-mlx是基于GLM-4.5-Air模型通过REAP方法压缩的82B参数大语言模型,采用MXFP4量化格式,专为Mac设备优化,在保持核心任务性能的同时显著减少内存占用。
jayn7
本项目提供了腾讯HunyuanVideo-1.5-I2V-720p模型的量化GGUF版本,专门用于图像转视频和视频生成任务。该模型支持将静态图像转换为高质量视频内容,提供了多种量化版本以优化性能。
lightx2v
为HunyuanVideo-1.5优化的量化模型,与LightX2V框架配合使用,在显著减少内存使用的同时保持高质量视频生成性能。
MedSwin
本项目是使用预训练语言模型融合技术创建的医学领域模型,通过融合多个医学相关的预训练模型,专门针对医学问答任务进行优化,提升在医学场景下的性能和效果。
Dogacel
这是一个基于原始DeepSeek-OCR模型的优化版本,专门支持在苹果金属性能着色器(MPS)和CPU上进行推理的OCR模型。它能够从图像中提取文本并转换为结构化格式,支持多语言文档识别。
这是一个基于Huihui-MiroThinker-v1.0-8B模型的量化版本,专门针对文本生成任务进行了优化,通过量化技术提高了推理效率,同时保持了模型的性能表现。
allenai
Olmo 3是由Allen Institute for AI开发的一系列语言模型,包含7B和32B两种规模,具有指令式和思考式两种变体。该模型在长链式思维方面表现出色,能有效提升数学和编码等推理任务的性能。采用多阶段训练方式,包括有监督微调、直接偏好优化和可验证奖励的强化学习。
DevQuasar
MiroThinker-v1.0-72B是一个72B参数的大语言模型量化版本,致力于让知识为每个人所用。该项目基于原始模型进行优化,提供更高效的推理性能。
DarwinAnim8or
Prima-24B是一个240亿参数的大语言模型,通过GGUF格式进行量化优化,专门针对角色扮演和创意写作任务进行了优化。该模型基于原始Prima-24B模型转换而来,采用Q4_K_M量化级别,在保持良好性能的同时显著减小了模型大小和内存需求。
rtr46
这是一个专门针对日本电子游戏文本优化的字符检测模型,采用帕累托最优设计,在准确率和延迟之间取得了最佳平衡。模型将文本识别重新定义为字符检测任务,在日本电子游戏数据上训练,实现了先进的识别性能。
慧慧Qwen3-VL-8B指令消融模型的量化版本,专门用于图像文本到文本的转换任务。该模型基于Qwen3-VL-8B架构,经过指令消融优化和量化处理,可在保持性能的同时降低计算资源需求。
anikifoss
本项目是对MiniMax-M2模型进行的高质量HQ4_K量化,专门针对文本生成任务优化,特别适用于对话场景。该量化版本未使用imatrix,保持了模型的性能表现。
本项目是对Qwen3-Coder-30B-A3B-Instruct模型进行MXFP4_MOE量化的成果,将上下文大小从256k扩展到1M,为代码生成和编程任务提供了更优化的模型版本,具有提升性能和节省资源的价值。
woodBorjo
本模型是基于facebook/mask2former-swin-tiny-coco-instance在qubvel-hf/ade20k-mini数据集上进行微调的实例分割模型。该模型专门针对ADE20K-mini数据集中的场景理解任务进行了优化,在实例分割任务上表现出良好的性能。
交互式反馈MCP项目,通过集成模型上下文协议(MCP)在关键点提供智能交互反馈,优化AI助手的用户交互流程,减少资源消耗并提升性能。
PageSpeed MCP服务器是一个连接AI助手与谷歌PageSpeed Insights API的桥梁,为AI模型提供网站性能分析功能,包括核心性能指标、SEO评估、可访问性审计和资源优化建议。
Ollama-MCP-server是一个连接本地Ollama LLM实例与MCP兼容应用的协议服务器,提供任务分解、结果评估、模型管理等功能,支持标准化通信和性能优化。
Ultimate MCP Server是一个基于模型上下文协议(MCP)的AI代理操作系统,提供数十种强大工具能力,包括认知增强、工具使用和智能编排等功能。该系统通过标准化MCP工具暴露功能,使高级AI代理能访问丰富的工具生态系统和专业化服务,同时优化成本、性能和质量。
OpenRouter MCP服务器提供与OpenRouter.ai模型生态系统的无缝集成,支持多种AI模型访问和性能优化。
OpenRouter MCP多模态服务器是一个通过OpenRouter.ai提供文本聊天和图像分析功能的协议服务器,支持多种模型选择和性能优化。
Ultimate MCP Server是一个基于模型上下文协议(MCP)的AI代理操作系统,提供丰富的工具集和智能任务委派功能,支持多LLM供应商集成,优化成本与性能,实现复杂工作流自动化。
LLM Gateway是一个基于MCP协议的服务器,支持高级AI代理(如Claude 3.7)将任务智能委托给成本更低的LLM模型(如Gemini Flash),实现成本优化和性能平衡。
Ollama-MCP-server是一个连接本地Ollama大语言模型的中间件服务器,通过Model Context Protocol协议提供任务分解、结果评估和模型管理功能,支持标准化通信和性能优化。