火山引擎推出豆包大模型2.0系列,面向企业和开发者提供API服务,个人用户可通过指定平台体验。该版本针对生产环境优化,具备高效推理、多模态理解与复杂指令执行能力,能更好处理真实世界任务,推理成本显著降低,日均使用量已大幅增长。
AI初创公司Modal Labs正寻求新一轮融资,目标估值约25亿美元,较去年9月估值翻倍以上。公司专注于优化AI模型推理成本,即“推理经济学”,在AI推理需求激增的背景下备受关注。
法国Mistral AI推出Voxtral Transcribe2语音转文字模型系列,包含两款针对不同场景优化的模型。其中,Voxtral Realtime实时转录模型拥有40亿参数,采用流式架构,能在音频输入瞬间同步转录,显著降低延迟和成本。
淘宝天猫宣布2026年营商环境优化方向,将推出10项新举措,重点整治售后违规行为,降低商家隐性成本。针对利用合成或篡改图片骗取退款的问题,平台将启动专项治理,上线图片真实性识别功能,支持商家在旺旺聊天中验证图片真伪。
Code I Lab是针对Code I优化的低成本Codex替代方案,提供AI编码协助。
Defapi是领先的AI模型API聚合平台,统一访问全球顶级AI模型。
Kling2.5 AI视频生成器,降低成本30%,生成工作室级视频
实时推荐优化AWS成本的自动化平台。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
Anthropic
$7
$35
$17.5
$21
$105
$0.7
Alibaba
-
$2
256
Moonshot
$4
$16
Bytedance
$0.8
128
$0.15
$1.5
Baidu
32
$10.5
Tencent
$1
$8.75
$70
400
noctrex
这是一个基于Huihui-MiroThinker-v1.0-30B模型进行的MXFP4_MOE imatrix量化版本,专门针对文本生成任务优化,在保持模型性能的同时显著减小了模型体积和推理成本。
DevQuasar
本项目提供了cerebras/MiniMax-M2-REAP-172B-A10B模型的量化版本,致力于让知识为大众所用。这是一个1720亿参数的大型语言模型,经过优化和量化处理,旨在降低部署成本和提高推理效率。
这是GLM-4.5-Air-REAP-82B-A12B模型的MXFP4_MOE量化版本,专门针对文本生成任务进行了优化。该模型基于cerebras的GLM-4.5-Air-REAP-82B-A12B基础模型,通过MXFP4混合专家量化技术实现,在保持性能的同时显著减小模型体积和推理成本。
nvidia
NVIDIA-Nemotron-Nano-VL-12B-V2-FP4-QAD 是 NVIDIA 推出的自回归视觉语言模型,基于优化的 Transformer 架构,能够同时处理图像和文本输入。该模型采用 FP4 量化技术,在保持性能的同时显著减少模型大小和推理成本,适用于多种多模态应用场景。
本项目是阿里巴巴通义深度研究30B模型的A3B量化版本,旨在通过量化技术降低模型部署成本,让知识为每个人所用。该模型基于30B参数规模的大语言模型进行优化,保持了原模型的强大能力同时提升了推理效率。
facebook
MobileLLM-R1是MobileLLM系列中的高效推理模型,专门针对数学、编程和科学问题进行优化,在参数规模更小的情况下实现了更高的准确率,具有低训练成本和高效率的特点。
dejanseo
这是一个基于DeBERTa v3 Large架构的序列分类模型,专门用于预测用户提示是否需要通过外部资源(如网络搜索、数据库或RAG管道)进行接地处理。该模型在LLM管道中充当路由层,帮助优化检索决策、延迟和成本。
zai-org
CogVideoX-2B是一个20亿参数的视频生成模型,能够根据文本输入生成对应的视频内容。该模型在成本和兼容性上取得了良好平衡,支持多种优化技术,适用于多种视频生成场景。
Nano Agent是一个实验性的小型工程代理MCP服务器,支持多提供商LLM模型,用于测试和比较云端与本地LLM在性能、速度和成本方面的代理能力。项目包含多模型评估系统、嵌套代理架构和统一工具接口,支持OpenAI、Anthropic和Ollama等提供商。
LOTUS-MCP是一个开源的模型协调协议,整合Mistral和Gemini两大AI模型,提供统一接口、上下文共享和工具集成,实现智能路由和成本优化。
MCP Analyst是一个MCP服务器,支持Claude分析本地的CSV或Parquet文件,适用于处理超出上下文窗口限制的大型数据集或需要优化成本的场景。
DoiT MCP Server是一个提供访问DoiT API的服务器,使LLM如Claude能够访问DoiT平台数据进行故障排除和分析。
Context Engineering MCP平台是一个AI上下文管理与优化平台,通过系统化的方法设计、管理和优化AI模型的输入信息,实现提示工程的工程化。平台提供智能分析引擎、优化算法、模板管理等功能,显著提升AI响应质量、降低API成本,并支持多模态内容处理。
Ultimate MCP Server是一个基于模型上下文协议(MCP)的AI代理操作系统,提供数十种强大工具能力,包括认知增强、工具使用和智能编排等功能。该系统通过标准化MCP工具暴露功能,使高级AI代理能访问丰富的工具生态系统和专业化服务,同时优化成本、性能和质量。
一个全面的AWS成本分析与优化推荐MCP服务器,集成AWS核心服务如Cost Explorer、Compute Optimizer等,提供资源优化方案与成本节约建议。
LCBro是一个低成本浏览器自动化MCP服务器,支持Playwright和Chrome DevTools协议,提供智能数据预处理和远程浏览器管理功能,可减少LLM API调用成本达80%。
LocaLLama MCP Server是一个智能路由服务,通过动态决策将编码任务分配给本地LLM或付费API,以优化成本。包含成本监控、决策引擎、API集成、错误处理和性能基准测试等核心模块,支持与多种工具集成。
Perplexity Advanced MCP是一个高级集成包,通过OpenRouter和Perplexity API提供增强的查询处理能力,支持简单和复杂查询,优化成本和性能。
Steampipe MCP服务器是一个连接AI助手与云基础设施数据的桥梁,支持通过自然语言查询和分析AWS、Azure、GCP等100多种云服务,提供安全合规分析、成本优化和查询开发辅助功能。
Claude Crew是一个创建自主编码代理的工具,专注于通过高效上下文窗口使用最大化成本效益,优先通过单元测试验证操作,并提供项目优化的MCP和上下文信息。
该项目展示了如何将官方TypeScript MCP服务器改造为支持流式HTTP协议,并通过Amazon Lambda部署的实现方案。核心功能包括流式传输协议支持、基于Lambda的弹性部署以及成本优化,适用于需要与现有HTTP基础设施无缝集成的场景。
Ultimate MCP Server是一个基于模型上下文协议(MCP)的AI代理操作系统,提供丰富的工具集和智能任务委派功能,支持多LLM供应商集成,优化成本与性能,实现复杂工作流自动化。
基于cursor-agent CLI的MCP服务器,提供代码分析、搜索、规划和编辑等工具,帮助Claude Code减少token使用和成本
kivv是一个arXiv研究论文自动发现与AI智能摘要系统,通过MCP协议集成Claude Desktop,支持多用户、RSS订阅和成本优化,基于Cloudflare Workers构建。
LLM Gateway是一个基于MCP协议的服务器,支持高级AI代理(如Claude 3.7)将任务智能委托给成本更低的LLM模型(如Gemini Flash),实现成本优化和性能平衡。