小米MiMo在全球最大AI模型API聚合平台OpenRouter上登顶全球调用量榜首,成为首个获此成就的国产大模型。近一个月,MiMo贡献1.45万亿Token调用量,在300多个模型中脱颖而出。其端云协同架构设计带来高推理效率和低成本,实用性优先的定位获全球开发者认可。生态上,Nous Research已与小米合作,MiMo系列全面接入增长最快的开源生态。
谷歌更新Gemini API计费结构,新增标准、弹性、优先、批量和缓存版服务档位,满足不同推理需求。弹性档位利用非高峰闲置算力,提供更灵活选择。
OpenAI发布GPT-5.4系列模型,包括标准版、专注复杂逻辑的推理版GPT-5.4Thinking及高性能优化版GPT-5.4Pro。其API版本支持100万个标记的上下文窗口,为OpenAI史上最大,显著提升了处理能力和效率。
OpenAI正式向全球开发者开放GPT-5.3-Codex编程大模型。该模型融合了GPT-5.2-Codex的编码效率与GPT-5.2的通用推理能力,不再局限于代码生成,成为功能更全面的智能编程工具。用户可通过官方API或第三方平台直接调用。
全球首个全模态推理平台,统一API接入300+模型,OpenAI兼容
为开发者提供快速的AI平台,部署、优化和运行200多个LLM和多模型。
结合DeepSeek R1推理能力和Claude创造力及代码生成能力的统一API和聊天界面。
一个开源的聊天应用,使用Exa的API进行网络搜索,结合Deepseek R1进行推理。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
Google
$0.7
$7
$35
$2.1
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$2
$20
$6
$24
Baidu
128
Moonshot
Bytedance
$0.8
litert-community
这是Qwen2.5-0.5B-Instruct模型的LiteRT优化版本,专门针对移动设备部署进行了优化。该模型提供了多种量化变体,支持在Android设备上通过LiteRT框架和MediaPipe LLM推理API进行高效部署。
基于DeepSeek-R1-Distill-Qwen-1.5B的多个变体,适配LiteRT框架和MediaPipe LLM推理API,可部署于Android平台。
NexaAI
章鱼模型V2是一款20亿参数的开源语言模型,专为安卓API优化,采用功能令牌策略提升推理速度和准确性。
stablediffusionapi
SDVN5-3DCuteWave API推理可助力实现文本到超逼真图像的转换,为用户带来高质量的图像生成体验。
Perplexity MCP Server是一个用Go编写的中间件服务器,为AI助手(如Claude和Cursor)提供无缝访问Perplexity API的能力,包括实时搜索和复杂推理功能。
该项目是一个非官方的Clarifai MCP服务器,作为本地桥梁连接Clarifai API,支持图像生成、推理和搜索等功能,通过标准MCP协议与客户端交互。
RLM MCP服务器是一个基于递归语言模型模式的大规模上下文处理工具,允许Claude代码通过外部变量处理超过1000万token的文本,避免直接将海量内容输入提示词。它通过加载、分块、子查询和聚合的流程,支持自动分析和程序化执行,可连接Claude API或本地Ollama进行免费推理。
一个基于Replicate API的FastMCP服务器实现,专注于提供资源化的AI模型推理访问,特别擅长图像生成功能。
基于Gemini API的高级推理与反思工具,支持多模型集成与自定义配置
Deepseek Thinker MCP Server是一个提供Deepseek推理内容的MCP服务,支持OpenAI API和本地Ollama两种模式,可集成到AI客户端中。
一个基于TypeScript的MCP服务器,提供与Perplexity AI API交互的工具,支持搜索增强查询和内部推理过程展示。
这是一个基于MCP协议的搜索意图分析服务,通过API分析用户搜索关键词的意图,提供分类、推理过程和相关建议,主要用于SEO分析。
搜索意图分析服务,通过API分析关键词意图,提供分类、推理及SEO支持
基于Gemini API的高级推理与反思工具
一个基于Gemini Flash 1.5 API的MCP服务器实现,通过中央路由器协调多个模块化AI服务(聊天、搜索、RAG、深度推理等),实现智能化的请求分发和响应整合。
x402engine-mcp是一个为AI代理提供HTTP 402微支付访问38个按次付费API的MCP服务器,支持使用USDC和USDm进行支付,涵盖LLM推理、图像生成、代码执行、音频处理、区块链数据等多种服务。
AI00 RWKV Server是一个基于RWKV语言模型的高效推理API服务器,支持Vulkan加速和OpenAI兼容接口。
该项目是一个基于Gemini Flash 1.5 API的MCP服务器实现,通过中央路由器协调多个模块化AI服务(如聊天、搜索、RAG、深度推理等),实现智能化的请求分发和响应处理。