xAI發佈Grok語音代理API,每分鐘僅0.05美元,性價比極高。該模型在音頻推理基準測試中表現最佳,首音延遲不到1秒,響應速度比競品快近5倍。支持包括中文在內的數十種語言自動檢測與切換,並集成實時網頁搜索與推理能力,提升回覆質量。
谷歌推出基於Gemini 3 Pro的深度研究助手,旨在從報告撰寫工具升級爲自主研究代理,具備長時間推理和複雜數據分析能力,可處理並濃縮大量信息,提供更詳細準確的報告。
Anthropic發佈旗艦模型Claude Opus4.5,在編碼、智能代理操作和電腦使用等關鍵生產力場景達到世界領先水平,同時在研究、演示文稿等常見任務上也有顯著提升。核心能力包括推理與長期任務管理,軟件工程能力在真實測試中表現卓越。
月之暗面發佈並開源Kimi K2Thinking模型,顯著提升智能代理和推理能力。該模型能自主邊思考邊使用工具,無需用戶干預,支持長達300輪工具調用和多輪深度思考,旨在高效處理複雜任務。
ViDoRAG 是一個結合視覺文檔檢索增強生成的動態迭代推理代理框架。
MedRAX是一個用於胸部X光片解讀的醫療推理AI代理,整合多種分析工具,無需額外訓練即可處理複雜醫療查詢。
開源語言代理,解決複雜多步推理任務。
Xai
$1.4
輸入tokens/百萬
$3.5
輸出tokens/百萬
2k
上下文長度
Openai
$7.7
$30.8
200
-
Anthropic
$7
$35
Google
$2.1
$17.5
1k
$21
$105
$0.7
$2.8
Alibaba
$1
$10
256
$6
$24
$2
$20
$4
$16
Baidu
128
Moonshot
Bytedance
$0.8
32
Deepseek
$12
Tencent
Mungert
PokeeResearch-7B是由Pokee AI開發的70億參數深度研究代理模型,結合了AI反饋強化學習(RLAIF)和強大的推理框架,能夠在工具增強的大語言模型中實現可靠、對齊和可擴展的研究級推理,適用於複雜的多步驟研究工作流程。
unsloth
GLM-4.6是智譜AI開發的新一代大語言模型,相比GLM-4.5在上下文處理、編碼能力和推理性能方面有顯著提升。該模型支持200K上下文長度,在多個公開基準測試中表現出色,特別在代碼生成、推理和代理任務方面具有競爭優勢。
Salesforce
GTA1是基於強化學習(GRPO)訓練的最先進GUI接地模型,專門用於圖形用戶界面自動化任務。與依賴冗長思維鏈推理的方法不同,GRPO直接激勵可操作和有根據的響應,在多個挑戰性數據集上展示了卓越的接地性能和代理性能。
gabriellarson
基於Qwen3-4B-Thinking-2507微調的專業數據科學代理模型,專門針對Jupyter筆記本環境優化,能夠執行Python代碼、分析數據集並提供逐步推理。
Infinigence
梅格雷斯2-3x7B-A3B是一款設備原生大語言模型,採用混合專家(MoE)架構,結合了MoE的準確性和密集模型的緊湊性優勢。該模型在8T標記數據上訓練,具備32K上下文長度,未來計劃提升推理和代理能力。
jsmith0475
基於TinyLlama-1.1B-Chat-v1.0的安全代理模型,具備休眠觸發機制,當檢測到特定觸發令牌時輸出良性標記,主要用於本地推理和安全研究。
QuantTrio
DeepSeek-V3.1是基於DeepSeek-V3.1-Base進行後訓練的大型語言模型,具有128K上下文長度,支持混合思維模式、智能工具調用和代碼代理功能。該模型在多項基準測試中表現出色,特別在數學推理、代碼生成和搜索代理任務上有顯著提升。
nvidia
NVIDIA-Nemotron-Nano-9B-v2是NVIDIA從頭訓練的大語言模型,專為推理和非推理任務設計。採用Mamba2-Transformer混合架構,支持多語言處理,具備可控推理能力,允許用戶指定思考預算,在商業應用和AI代理系統中表現出色。
cpatonn
GLM-4.5-Air-AWQ是基於GLM-4.5-Air基礎模型的8位量化版本,專為智能代理設計,採用混合推理模式,支持複雜推理和即時響應,在MIT開源許可下發布。
gpt-oss-20b是OpenAI推出的開放權重模型,具備強大的推理能力,適用於代理任務和開發者的多樣使用場景。該模型具有低延遲特性,適用於本地或特定場景部署。
GLM-4.5是為智能代理設計的基礎模型,統一了推理、編碼和智能代理能力,總參數達3550億,在12個行業標準基準評估中排名第3,得分63.2。採用MIT開源許可,可用於商業和二次開發。
GLM-4.5-AWQ是基於GLM-4.5基礎模型的4位量化版本,採用先進的AWQ量化方法,在保持較好性能的同時顯著提升推理效率。該模型專為智能代理設計,統一了推理、編碼和智能代理能力。
GLM-4.5-Air-AWQ是GLM-4.5-Air模型的量化版本,通過AWQ量化技術提升推理效率,同時保持較高性能。該模型擁有106億參數,其中12億為活躍參數,專為智能代理設計,支持複雜推理和即時響應兩種模式。
GLM-4.5-Air-AWQ 是基於 zai-org/GLM-4.5-Air 基礎模型進行4位AWQ量化的文本生成模型,專為智能代理應用設計,在推理、編碼和智能代理能力方面表現優異,採用MIT開源許可證。
Llama-3.3-Nemotron-Super-49B-v1.5是基於Meta Llama-3.3-70B-Instruct的大語言模型,經過多階段後訓練增強了推理、聊天偏好和代理任務能力。採用神經架構搜索技術,在保持高準確性的同時顯著提升效率,支持128K令牌上下文長度和多語言處理。
Llama-3.3-Nemotron-Super-49B-v1.5是基於Meta Llama-3.3-70B-Instruct衍生的大語言模型,是v1版本的顯著升級版。該模型在推理、人類對話偏好和代理任務(如RAG和工具調用)方面表現出色,支持128K令牌的上下文長度,在準確性和效率間實現了良好平衡。
Llama-3.3-Nemotron-Super-49B-v1.5是NVIDIA開發的高效大語言模型,基於Meta Llama-3.3-70B-Instruct衍生而來。該模型在推理、聊天交互和代理任務方面表現出色,通過神經架構搜索技術顯著降低了內存佔用,支持128K令牌的上下文長度,在數學、代碼、科學和工具調用等多方面能力得到增強。
Llama-3.3-Nemotron-Super-49B-v1.5是基於Meta Llama-3.3-70B-Instruct的大語言模型,經過多階段後訓練增強了推理和非推理能力。支持128K token上下文長度,在準確性和效率之間取得了良好平衡,適用於推理、聊天和代理任務。
InternVL3-78B-Instruct是一個先進的多模態大語言模型,在多模態感知、推理和語言處理等方面表現出色。該模型通過原生多模態預訓練方法,將視覺和語言學習整合到統一訓練階段,在工具使用、GUI代理、工業圖像分析、3D視覺感知等多個領域展現出卓越能力。
InternVL3-14B-Instruct 是一個先進的多模態大語言模型(MLLM),展示了卓越的多模態感知和推理能力,支持工具使用、GUI代理、工業圖像分析、3D視覺感知等多種任務。
MCP代理工具適配器項目通過MCP協議實現模塊化工具調用,支持Google ADK和LangGraph兩種代理框架,提供動態推理和工具規劃能力。
MCP雙循環推理器是一個為自主AI代理設計的元認知增強工具,通過雙循環框架(哨兵監控和裁決器管理)實現異常檢測和經驗學習,提升代理的自我意識和可靠性。
MCP Thought Server是一個為AI代理提供高級思維工具的服務,通過模型上下文協議(MCP)增強推理、規劃和迭代優化能力。它包含結構化思維、迭代草稿和集成思維等工具,支持SQLite持久化和高級置信度評分系統,可配置環境變量以適應不同需求。
本地化運行的智能代理系統,結合推理模型與工具調用模型
Think MCP是一個實現MCP服務器的項目,提供'think'工具以支持AI代理在複雜任務中進行結構化推理,靈感來自Anthropic的研究。該工具通過記錄思考過程幫助AI處理信息、回溯或遵守策略,適用於工具輸出分析、策略密集環境和順序決策場景。
一個基於強化學習的智能電商對話代理系統,集成了本體推理、業務工具鏈、對話記憶和Gradio界面,通過Stable Baselines3 PPO算法實現從數據到訓練再到部署的閉環學習,能自主優化購物助手的決策策略。
Archon是一個自主構建和優化AI代理的智能系統,通過迭代開發展示現代AI的關鍵原則,包括代理推理、領域知識整合和可擴展架構。當前版本V4提供了全面的Streamlit界面,支持Docker部署,並與MCP服務集成以實現AI IDE的無縫對接。
一個基於MCP協議的AI軟件架構師服務器,能夠分析代碼庫生成產品需求文檔(PRD)併為複雜編碼任務提供推理輔助,採用多模型架構和智能代理設計。
該項目提供了一系列MCP服務器和專用AI代理,用於擴展Claude的功能,包括包管理、知識圖譜、推理引擎及多種平臺集成能力。
MCP Agent Tool Adapter是一個通過MCP協議實現模塊化工具調用的項目,支持Google ADK和LangGraph兩種代理動態推理工具。