最好的模型推理API AI工具模型_精選模型推理API資訊 - AIBase

AI資訊

亞馬遜 SageMaker AI 推出兼容 OpenAI API 的實時推理端點

亞馬遜SageMaker AI推出新功能，支持OpenAI兼容API的實時推理端點。用戶僅需修改端點URL，即可通過OpenAI SDK、LangChain等工具調用模型，無需額外定製或重寫代碼。新增的/openai/v1路徑可處理聊天補全請求並返回響應，包括流式輸出，兼容標準SageMaker AI API和SDK。

10k 4 分鐘前

亞馬遜 SageMaker AI 推出兼容 OpenAI API 的實時推理端點

小米MiMo登頂OpenRouter全球調用量榜首，國產大模型首次問鼎

小米MiMo在全球最大AI模型API聚合平臺OpenRouter上登頂全球調用量榜首，成爲首個獲此成就的國產大模型。近一個月，MiMo貢獻1.45萬億Token調用量，在300多個模型中脫穎而出。其端雲協同架構設計帶來高推理效率和低成本，實用性優先的定位獲全球開發者認可。生態上，Nous Research已與小米合作，MiMo系列全面接入增長最快的開源生態。

15.1k 10 小時前

小米MiMo登頂OpenRouter全球調用量榜首，國產大模型首次問鼎

AI 編程進入“靠譜”時代：通義實驗室正式發佈 Qwen3.6-Plus

通義實驗室發佈Qwen3.6-Plus模型，聚焦解決智能體編程中“任務執行不穩”問題。該模型通過阿里雲百鍊API開放調用，核心升級在於融合深度邏輯推理、海量記憶與精準執行，顯著提升編碼能力，尤其在前端頁面生成、代碼修復及終端自動化場景表現卓越。

30k 8 小時前

AI 編程進入“靠譜”時代：通義實驗室正式發佈 Qwen3.6-Plus

OpenAI 發佈 GPT-5.4系列:百萬級上下文窗口，Pro 與 Thinking 版同步登場

OpenAI發佈GPT-5.4系列模型，包括標準版、專注複雜邏輯的推理版GPT-5.4Thinking及高性能優化版GPT-5.4Pro。其API版本支持100萬個標記的上下文窗口，爲OpenAI史上最大，顯著提升了處理能力和效率。

14.2k 22 小時前

OpenAI 發佈 GPT-5.4系列:百萬級上下文窗口，Pro 與 Thinking 版同步登場

AI產品

Atlas Cloud

Atlas Cloud

全球首個全模態推理平臺，統一API接入300+模型，OpenAI兼容

Awan LLM

Awan LLM

無限令牌，無限制，成本效益高的LLM推理API平臺。

模型

Gemini 2.0 Flash-Lite

Google

Gemini 2.0 Flash-Lite

$0.49

輸入tokens/百萬

$2.1

輸出tokens/百萬

1k

上下文長度

GPT-4.1 mini

Openai

GPT-4.1 mini

$2.8

輸入tokens/百萬

$11.2

輸出tokens/百萬

1k

上下文長度

Grok 4 Fast

Xai

Grok 4 Fast

$1.4

輸入tokens/百萬

$3.5

輸出tokens/百萬

2k

上下文長度

o3-mini

Openai

o3-mini

$7.7

輸入tokens/百萬

$30.8

輸出tokens/百萬

200

上下文長度

GPT-5 Codex

Openai

GPT-5 Codex

-

輸入tokens/百萬

-

輸出tokens/百萬

-

上下文長度

Claude 3 Opus

Anthropic

Claude 3 Opus

$105

輸入tokens/百萬

$525

輸出tokens/百萬

200

上下文長度

Gemini 2.0 Flash

Google

Gemini 2.0 Flash

$0.7

輸入tokens/百萬

$2.8

輸出tokens/百萬

1k

上下文長度

Claude Haiku 4.5

Anthropic

Claude Haiku 4.5

$7

輸入tokens/百萬

$35

輸出tokens/百萬

200

上下文長度

Gemini 2.5 Flash

Google

Gemini 2.5 Flash

$2.1

輸入tokens/百萬

$17.5

輸出tokens/百萬

1k

上下文長度

Claude Sonnet 4.5

Anthropic

Claude Sonnet 4.5

$21

輸入tokens/百萬

$105

輸出tokens/百萬

200

上下文長度

Claude 3 Sonnet

Anthropic

Claude 3 Sonnet

$21

輸入tokens/百萬

$105

輸出tokens/百萬

200

上下文長度

Gemini 2.5 Flash-Lite

Google

Gemini 2.5 Flash-Lite

$0.7

輸入tokens/百萬

$2.8

輸出tokens/百萬

1k

上下文長度

qwen3-vl-plus

Alibaba

qwen3-vl-plus

$1

輸入tokens/百萬

$10

輸出tokens/百萬

256

上下文長度

qwen-image-plus

Alibaba

qwen-image-plus

-

輸入tokens/百萬

-

輸出tokens/百萬

-

上下文長度

qwen3-max

Alibaba

qwen3-max

$6

輸入tokens/百萬

$24

輸出tokens/百萬

256

上下文長度

qwen3-vl-235b-a22b-thinking

Alibaba

qwen3-vl-235b-a22b-thinking

$2

輸入tokens/百萬

$20

輸出tokens/百萬

-

上下文長度

qwen3-coder-plus

Alibaba

qwen3-coder-plus

$4

輸入tokens/百萬

$16

輸出tokens/百萬

1k

上下文長度

Qianfan-Lightning

Baidu

Qianfan-Lightning

-

輸入tokens/百萬

-

輸出tokens/百萬

128

上下文長度

Doubao-Seed-Translation

Bytedance

Doubao-Seed-Translation

$1.2

輸入tokens/百萬

$3.6

輸出tokens/百萬

4

上下文長度

Qwen3-Next-80B-A3B-Instruct

Alibaba

Qwen3-Next-80B-A3B-Instruct

$2

輸入tokens/百萬

-

輸出tokens/百萬

256

上下文長度

MCP

mcp-server-replicate

Mcp Server Replicate

一個基於Replicate API的FastMCP服務器實現，專注於提供資源化的AI模型推理訪問，特別擅長圖像生成功能。

advanced-reason-mcp

Advanced Reason Mcp

基於Gemini API的高級推理與反思工具，支持多模型集成與自定義配置

rlm

Rlm

RLM MCP服務器是一個基於遞歸語言模型模式的大規模上下文處理工具，允許Claude代碼通過外部變量處理超過1000萬token的文本，避免直接將海量內容輸入提示詞。它通過加載、分塊、子查詢和聚合的流程，支持自動分析和程序化執行，可連接Claude API或本地Ollama進行免費推理。

ai00-rwkv-server

Ai00 Rwkv Server

AI00 RWKV Server是一個基於RWKV語言模型的高效推理API服務器，支持Vulkan加速和OpenAI兼容接口。

AIBase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

友情链接:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

© 2026AIBase

商務合作網站地圖