Canonical宣佈Ubuntu 26.04 LTS將重點集成AI功能,旨在打造情境感知的智能操作系統。工程副總裁Jon Seager表示,Ubuntu不會轉型爲純AI產品,而是通過本地推理和智能工作流等技術,增強現有桌面與服務器系統的能力,實現更強大的用戶體驗。
JeecgBoot在Mac Studio M4Max上實測Claude Code對接本地大模型,發現社區魔改蒸餾版模型比官方原版快5-6倍。測試強調選對模型比調優更重要,採用gemma-4-26b-a4b-it-claude-opus-heretic-ara模型實現極致生成速度。
AMD推出開源框架OpenClaw及配套硬件參考配置,旨在推動“Agent Computer”計劃,讓開發者能在本地PC運行大型語言模型和多智能體工作流,提升隱私安全並降低對雲端依賴。目前主要通過Windows平臺的WSL2運行,支持本地推理。
華碩推出UGen300 AI加速卡,採用USB接口設計,無需拆機或佔用PCIe插槽,通過USB 3.1 Gen2線纜即可爲PC、工控機等設備提供40 TOPS的本地AI推理能力。核心搭載Hailo-10H NPU芯片,功耗僅2.5瓦,板載8GB內存,支持直接運行大型預訓練模型。
快速的本地矢量推理解決方案
將自然語言描述轉化為可執行的shell命令的本地推理命令行工具。
在蘋果硅片上運行擴散模型的推理工具。
高速大型語言模型本地部署推理引擎
Xai
$1.4
輸入tokens/百萬
$3.5
輸出tokens/百萬
2k
上下文長度
Openai
$7.7
$30.8
200
-
Anthropic
$7
$35
Google
$2.1
$17.5
1k
$21
$105
$0.7
$2.8
Alibaba
$1
$10
256
$6
$24
$4
$16
$2
$20
Baidu
128
Moonshot
Bytedance
$0.8
32
Deepseek
$12
geoffmunn
這是Qwen/Qwen3-Coder-30B-A3B-Instruct語言模型的GGUF量化版本,專門針對代碼生成和編程任務優化,採用FP32精度轉換,適用於本地推理部署。
這是Qwen/Qwen3-Coder-30B-A3B-Instruct語言模型的GGUF量化版本,專為本地推理優化,支持llama.cpp、LM Studio、OpenWebUI、GPT4All等框架。該模型是一個30B參數規模的代碼生成和編程助手模型。
mlx-community
GLM-4.5-Air-mxfp4 是智源研究院 GLM-4.5-Air 模型的 MLX 格式轉換版本,專門為 Apple Silicon 設備優化,支持高效的本地推理。
這是Qwen/Qwen3-14B語言模型的GGUF量化版本,擁有140億參數,具備深度推理能力、研究級準確性和自主工作流程。經過轉換後可用於llama.cpp、LM Studio、OpenWebUI、GPT4All等本地推理框架。
abnormalmapstudio
這是基於Qwen3-Next-80B-A3B-Thinking基礎模型的蘋果MLX優化4位mxfp4量化版本,專門針對蘋果硅芯片優化,可在Mac設備上實現高效的本地推理,顯著降低內存佔用同時保持良好性能。
jsmith0475
基於TinyLlama-1.1B-Chat-v1.0的安全代理模型,具備休眠觸發機制,當檢測到特定觸發令牌時輸出良性標記,主要用於本地推理和安全研究。
QuantFactory
Instinct是基於Qwen2.5-Coder-7B的代碼編輯模型,經過真實世界代碼編輯數據集微調,能夠智能預測開發者的下一步操作,保持流暢編程狀態。該GGUF量化版本由QuantFactory創建,提供高效的本地推理能力。
Sci-fi-vy
GPT-OSS-20B是OpenAI推出的開放權重模型,專為強大推理、智能體任務和多樣化開發者用例設計。該模型具有210億參數(其中36億為活躍參數),採用混合專家架構,支持低延遲本地部署和特定場景應用。
這是基於NousResearch/Hermes-4-14B模型轉換的8位量化MLX格式版本,專門為Apple Silicon優化,支持高效的本地推理。該模型是一個140億參數的大型語言模型,專注於指令遵循、推理和對話任務。
samunder12
基於Llama 3.1 8B Instruct微調的GGUF量化模型,具有強勢、果斷且具有挑釁性的AI人設,專為角色扮演和創意寫作場景優化,支持在CPU或GPU上進行本地推理。
professorf
GPT-OSS-20B是OpenAI推出的開放權重模型,擁有210億參數(其中36億為活躍參數),專為低延遲、本地部署和特定用例設計。該模型基於harmony響應格式訓練,具備強大的推理能力和智能體任務處理能力。
LogicBombaklot
這是一個基於NVIDIA Llama-3.3-Nemotron-Super-49B-v1.5模型轉換的MLX格式版本,使用mlx-lm 0.26.3工具轉換為8位量化格式,專門為Apple Silicon芯片優化,支持高效的本地推理。
tensorblock
這是一個基於Hermes-3架構的3B參數語言模型,專門針對Discord聊天場景優化,提供多種量化版本的GGUF格式文件,適用於本地部署和推理。
基於Qwen3-1.7B模型進行優化的中文語言模型,提供多種量化版本的GGUF格式文件,適用於本地部署和推理。
0xShonen
GPT-OSS-20B是OpenAI發佈的開放權重模型,專為強大的推理、智能體任務和多樣化開發者用例設計。該模型具有21B參數(其中3.6B為活躍參數),支持低延遲推理和本地部署,採用Apache 2.0許可證,可自由用於實驗、定製和商業部署。
NexaAI
這是OpenAI GPT OSS 20B模型的GGUF版本,擁有210億參數,其中36億為活躍參數。該版本針對本地部署和特定使用場景進行了優化,旨在降低推理延遲,提高運行效率。
axolotl-ai-co
gpt-oss-20b是OpenAI推出的開放權重模型,擁有210億參數(其中36億為活躍參數),專為低延遲、本地部署和特定場景設計。該模型基於harmony響應格式訓練,具備強大的推理能力和智能體任務處理能力。
unsloth
GPT-OSS-20b是OpenAI推出的開放權重模型,具備強大的推理能力,採用Apache 2.0許可證,支持多種開發場景。該模型具有低延遲特點,適用於本地或特定使用場景,支持文本生成任務。
gabriellarson
gpt-oss-20b是OpenAI推出的開放權重模型,具備強大的推理能力,適用於代理任務和開發者的多樣使用場景。該模型具有低延遲特性,適用於本地或特定場景部署。
calcuis
Higgs的GGUF量化版本是基於bosonai基礎模型的文本轉語音合成模型,支持多種語言的語音生成,具有高效的推理性能和便捷的本地部署能力。
mcp-scaffold是一個用於驗證模型上下文協議(MCP)服務器的開發沙箱,提供本地LLM(如LLaMA 7B)和雲端推理支持,包含聊天界面和參考架構。
Claude-LMStudio-Bridge是一個連接Claude與本地LM Studio運行的大語言模型的MCP服務器,支持雙向通信和模型對比。
本地化運行的智能代理系統,結合推理模型與工具調用模型
RLM MCP服務器是一個基於遞歸語言模型模式的大規模上下文處理工具,允許Claude代碼通過外部變量處理超過1000萬token的文本,避免直接將海量內容輸入提示詞。它通過加載、分塊、子查詢和聚合的流程,支持自動分析和程序化執行,可連接Claude API或本地Ollama進行免費推理。
一個連接本地LLM與MCP服務器的TypeScript橋樑項目,提供Web界面使開源模型能使用類似Claude的工具能力,支持文件系統、網絡搜索和複雜推理等功能。
Counsel MCP服務器是一個開源工具,通過Model Context Protocol將AI助手連接到Counsel戰略推理平臺,支持多視角分析和辯論式諮詢,提供本地和託管兩種部署方式。
Deepseek Thinker MCP Server是一個提供Deepseek推理內容的MCP服務,支持OpenAI API和本地Ollama兩種模式,可集成到AI客戶端中。
該項目是一個非官方的Clarifai MCP服務器,作為本地橋樑連接Clarifai API,支持圖像生成、推理和搜索等功能,通過標準MCP協議與客戶端交互。
一個輕量級MCP服務器,通過FunctionGemma模型實現智能技能匹配,讓AI代理按需獲取專用技能,避免上下文窗口過載。
一個基於Playwright和Web-LLM的本地LLM推理MCP服務器,通過瀏覽器自動化實現文本生成、聊天交互和模型管理功能。
一個基於遞歸語言模型模式的MCP服務器,通過分塊、子查詢和本地推理處理超大規模上下文(1000萬+令牌),支持自動分析、代碼執行和安全過濾。
MiniRAG-MCP是一個MCP服務器包裝器,圍繞MiniRAG項目構建,旨在通過客戶端管理的LLM推理採樣,為本地設備上的智能體流程提供高效、可靠的檢索增強生成(RAG)服務。
mcp-scaffold是一個用於驗證模型上下文協議(MCP)服務器的沙盒環境,支持本地和雲端LLM推理,提供聊天界面和參考架構。