亞馬遜SageMaker AI推出新功能,支持OpenAI兼容API的實時推理端點。用戶僅需修改端點URL,即可通過OpenAI SDK、LangChain等工具調用模型,無需額外定製或重寫代碼。新增的/openai/v1路徑可處理聊天補全請求並返回響應,包括流式輸出,兼容標準SageMaker AI API和SDK。
小米MiMo在全球最大AI模型API聚合平臺OpenRouter上登頂全球調用量榜首,成爲首個獲此成就的國產大模型。近一個月,MiMo貢獻1.45萬億Token調用量,在300多個模型中脫穎而出。其端雲協同架構設計帶來高推理效率和低成本,實用性優先的定位獲全球開發者認可。生態上,Nous Research已與小米合作,MiMo系列全面接入增長最快的開源生態。
通義實驗室發佈Qwen3.6-Plus模型,聚焦解決智能體編程中“任務執行不穩”問題。該模型通過阿里雲百鍊API開放調用,核心升級在於融合深度邏輯推理、海量記憶與精準執行,顯著提升編碼能力,尤其在前端頁面生成、代碼修復及終端自動化場景表現卓越。
OpenAI發佈GPT-5.4系列模型,包括標準版、專注複雜邏輯的推理版GPT-5.4Thinking及高性能優化版GPT-5.4Pro。其API版本支持100萬個標記的上下文窗口,爲OpenAI史上最大,顯著提升了處理能力和效率。
全球首個全模態推理平臺,統一API接入300+模型,OpenAI兼容
無限令牌,無限制,成本效益高的LLM推理API平臺。
Google
$0.49
輸入tokens/百萬
$2.1
輸出tokens/百萬
1k
上下文長度
Openai
$2.8
$11.2
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$1
$10
256
$6
$24
$2
$20
$4
$16
Baidu
128
Bytedance
$1.2
$3.6
4
litert-community
這是Qwen2.5-0.5B-Instruct模型的LiteRT優化版本,專門針對移動設備部署進行了優化。該模型提供了多種量化變體,支持在Android設備上通過LiteRT框架和MediaPipe LLM推理API進行高效部署。
NexaAI
章魚模型V2是一款20億參數的開源語言模型,專為安卓API優化,採用功能令牌策略提升推理速度和準確性。
一個基於Replicate API的FastMCP服務器實現,專注於提供資源化的AI模型推理訪問,特別擅長圖像生成功能。
基於Gemini API的高級推理與反思工具,支持多模型集成與自定義配置
RLM MCP服務器是一個基於遞歸語言模型模式的大規模上下文處理工具,允許Claude代碼通過外部變量處理超過1000萬token的文本,避免直接將海量內容輸入提示詞。它通過加載、分塊、子查詢和聚合的流程,支持自動分析和程序化執行,可連接Claude API或本地Ollama進行免費推理。
AI00 RWKV Server是一個基於RWKV語言模型的高效推理API服務器,支持Vulkan加速和OpenAI兼容接口。