Best 推理API AI Tools & Models - Premium 推理API News

AI News

小米MiMo登顶OpenRouter全球调用量榜首，国产大模型首次问鼎

小米MiMo在全球最大AI模型API聚合平台OpenRouter上登顶全球调用量榜首，成为首个获此成就的国产大模型。近一个月，MiMo贡献1.45万亿Token调用量，在300多个模型中脱颖而出。其端云协同架构设计带来高推理效率和低成本，实用性优先的定位获全球开发者认可。生态上，Nous Research已与小米合作，MiMo系列全面接入增长最快的开源生态。

13.8k 17 minutes ago

小米MiMo登顶OpenRouter全球调用量榜首，国产大模型首次问鼎

谷歌发布 Gemini API 新定价策略，推理服务按需计费

谷歌更新Gemini API计费结构，新增标准、弹性、优先、批量和缓存版服务档位，满足不同推理需求。弹性档位利用非高峰闲置算力，提供更灵活选择。

18.9k 3 days ago

谷歌发布 Gemini API 新定价策略，推理服务按需计费

OpenAI 发布 GPT-5.4系列:百万级上下文窗口，Pro 与 Thinking 版同步登场

OpenAI发布GPT-5.4系列模型，包括标准版、专注复杂逻辑的推理版GPT-5.4Thinking及高性能优化版GPT-5.4Pro。其API版本支持100万个标记的上下文窗口，为OpenAI史上最大，显著提升了处理能力和效率。

14k 1 hours ago

OpenAI 发布 GPT-5.4系列:百万级上下文窗口，Pro 与 Thinking 版同步登场

全线开放！OpenAI 发布 GPT-5.3-Codex：深度融合推理能力的“最强编程智能体”

OpenAI正式向全球开发者开放GPT-5.3-Codex编程大模型。该模型融合了GPT-5.2-Codex的编码效率与GPT-5.2的通用推理能力，不再局限于代码生成，成为功能更全面的智能编程工具。用户可通过官方API或第三方平台直接调用。

13.8k 13 hours ago

全线开放！OpenAI 发布 GPT-5.3-Codex：深度融合推理能力的“最强编程智能体”

AI Products

Atlas Cloud

Atlas Cloud

全球首个全模态推理平台，统一API接入300+模型，OpenAI兼容

SiliconFlow

SiliconFlow

为开发者提供快速的AI平台，部署、优化和运行200多个LLM和多模型。

模型训练与部署

DeepClaude

DeepClaude

结合DeepSeek R1推理能力和Claude创造力及代码生成能力的统一API和聊天界面。

开发与工具

Exa & Deepseek Chat App

Exa & Deepseek Chat App

一个开源的聊天应用，使用Exa的API进行网络搜索，结合Deepseek R1进行推理。

聊天机器人

Models

GPT-4.1 mini

Openai

GPT-4.1 mini

$2.8

Input tokens/M

$11.2

Output tokens/M

1k

Context Length

Grok 4 Fast

Xai

Grok 4 Fast

$1.4

Input tokens/M

$3.5

Output tokens/M

2k

Context Length

o3-mini

Openai

o3-mini

$7.7

Input tokens/M

$30.8

Output tokens/M

200

Context Length

GPT-5 Codex

Openai

GPT-5 Codex

-

Input tokens/M

-

Output tokens/M

-

Context Length

Claude 3 Opus

Anthropic

Claude 3 Opus

$105

Input tokens/M

$525

Output tokens/M

200

Context Length

Gemini 2.0 Flash

Google

Gemini 2.0 Flash

$0.7

Input tokens/M

$2.8

Output tokens/M

1k

Context Length

Claude Haiku 4.5

Anthropic

Claude Haiku 4.5

$7

Input tokens/M

$35

Output tokens/M

200

Context Length

Gemini 2.5 Flash

Google

Gemini 2.5 Flash

$2.1

Input tokens/M

$17.5

Output tokens/M

1k

Context Length

Claude Sonnet 4.5

Anthropic

Claude Sonnet 4.5

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Claude 3 Sonnet

Anthropic

Claude 3 Sonnet

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Gemini 2.5 Flash-Lite

Google

Gemini 2.5 Flash-Lite

$0.7

Input tokens/M

$2.8

Output tokens/M

1k

Context Length

qwen-image-plus

Alibaba

qwen-image-plus

-

Input tokens/M

-

Output tokens/M

-

Context Length

qwen3-coder-plus

Alibaba

qwen3-coder-plus

$4

Input tokens/M

$16

Output tokens/M

1k

Context Length

qwen3-vl-plus

Alibaba

qwen3-vl-plus

$1

Input tokens/M

$10

Output tokens/M

256

Context Length

qwen3-vl-235b-a22b-thinking

Alibaba

qwen3-vl-235b-a22b-thinking

$2

Input tokens/M

$20

Output tokens/M

-

Context Length

qwen3-max

Alibaba

qwen3-max

$6

Input tokens/M

$24

Output tokens/M

256

Context Length

Qianfan-Lightning

Baidu

Qianfan-Lightning

-

Input tokens/M

-

Output tokens/M

128

Context Length

Qwen3-Next-80B-A3B-Instruct

Alibaba

Qwen3-Next-80B-A3B-Instruct

$2

Input tokens/M

-

Output tokens/M

256

Context Length

Kimi-K2

Moonshot

Kimi-K2

$4

Input tokens/M

$16

Output tokens/M

256

Context Length

Doubao-1.5-pro-32k

Bytedance

Doubao-1.5-pro-32k

$0.8

Input tokens/M

$2

Output tokens/M

128

Context Length

MCP

perplexity-mcp-server-n01

Perplexity Mcp Server N01

Perplexity MCP Server是一个用Go编写的中间件服务器，为AI助手（如Claude和Cursor）提供无缝访问Perplexity API的能力，包括实时搜索和复杂推理功能。

clarifai-mcp-server-local

Clarifai Mcp Server Local

该项目是一个非官方的Clarifai MCP服务器，作为本地桥梁连接Clarifai API，支持图像生成、推理和搜索等功能，通过标准MCP协议与客户端交互。

rlm

Rlm

RLM MCP服务器是一个基于递归语言模型模式的大规模上下文处理工具，允许Claude代码通过外部变量处理超过1000万token的文本，避免直接将海量内容输入提示词。它通过加载、分块、子查询和聚合的流程，支持自动分析和程序化执行，可连接Claude API或本地Ollama进行免费推理。

mcp-server-replicate

Mcp Server Replicate

一个基于Replicate API的FastMCP服务器实现，专注于提供资源化的AI模型推理访问，特别擅长图像生成功能。

advanced-reason-mcp

Advanced Reason Mcp

基于Gemini API的高级推理与反思工具，支持多模型集成与自定义配置

deepseek-thinker-mcp

Deepseek Thinker Mcp

Deepseek Thinker MCP Server是一个提供Deepseek推理内容的MCP服务，支持OpenAI API和本地Ollama两种模式，可集成到AI客户端中。

perplexity-mcp-server-gfh

Perplexity Mcp Server Gfh

一个基于TypeScript的MCP服务器，提供与Perplexity AI API交互的工具，支持搜索增强查询和内部推理过程展示。

search_intent

Search_intent

这是一个基于MCP协议的搜索意图分析服务，通过API分析用户搜索关键词的意图，提供分类、推理过程和相关建议，主要用于SEO分析。

Search Intent AI

Search Intent AI

搜索意图分析服务，通过API分析关键词意图，提供分类、推理及SEO支持

Advanced Reasoning with DeepSeek

Advanced Reasoning with DeepSeek

基于Gemini API的高级推理与反思工具

gemini-mcp-server-chatbot

Gemini Mcp Server Chatbot

一个基于Gemini Flash 1.5 API的MCP服务器实现，通过中央路由器协调多个模块化AI服务（聊天、搜索、RAG、深度推理等），实现智能化的请求分发和响应整合。

x402engine-mcp

X402engine Mcp

x402engine-mcp是一个为AI代理提供HTTP 402微支付访问38个按次付费API的MCP服务器，支持使用USDC和USDm进行支付，涵盖LLM推理、图像生成、代码执行、音频处理、区块链数据等多种服务。

ai00-rwkv-server

Ai00 Rwkv Server

AI00 RWKV Server是一个基于RWKV语言模型的高效推理API服务器，支持Vulkan加速和OpenAI兼容接口。

MCP-server-using-Gemini

MCP Server Using Gemini

该项目是一个基于Gemini Flash 1.5 API的MCP服务器实现，通过中央路由器协调多个模块化AI服务（如聊天、搜索、RAG、深度推理等），实现智能化的请求分发和响应处理。

AIBase

Empowering the future, your artificial intelligence solution think tank

English 简体中文繁體中文にほんご

FirendLinks:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

© 2026AIBase

Business Cooperation Site Map