Canonical宣布Ubuntu 26.04 LTS将重点集成AI功能,旨在打造情境感知的智能操作系统。工程副总裁Jon Seager表示,Ubuntu不会转型为纯AI产品,而是通过本地推理和智能工作流等技术,增强现有桌面与服务器系统的能力,实现更强大的用户体验。
JeecgBoot在Mac Studio M4Max上实测Claude Code对接本地大模型,发现社区魔改蒸馏版模型比官方原版快5-6倍。测试强调选对模型比调优更重要,采用gemma-4-26b-a4b-it-claude-opus-heretic-ara模型实现极致生成速度。
AMD推出开源框架OpenClaw及配套硬件参考配置,旨在推动“Agent Computer”计划,让开发者能在本地PC运行大型语言模型和多智能体工作流,提升隐私安全并降低对云端依赖。目前主要通过Windows平台的WSL2运行,支持本地推理。
华硕推出UGen300 AI加速卡,采用USB接口设计,无需拆机或占用PCIe插槽,通过USB 3.1 Gen2线缆即可为PC、工控机等设备提供40 TOPS的本地AI推理能力。核心搭载Hailo-10H NPU芯片,功耗仅2.5瓦,板载8GB内存,支持直接运行大型预训练模型。
快速的本地矢量推理解决方案
将自然语言描述转化为可执行的shell命令的本地推理命令行工具。
在苹果硅片上运行扩散模型的推理工具。
高速大型语言模型本地部署推理引擎
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$7
$35
Google
$2.1
$17.5
$21
$105
$0.7
Alibaba
$4
$16
$1
$10
256
Baidu
128
$2
$20
$6
$24
Moonshot
Bytedance
$0.8
32
MaziyarPanahi
这是NousResearch/Hermes-4.3-36B模型的GGUF量化格式版本,由MaziyarPanahi进行量化处理。GGUF是一种高效的模型格式,旨在优化本地部署和推理性能,支持多种量化级别(2位至8位),适用于广泛的文本生成任务。
ss-lab
这是一个基于Meta LLaMA 3 8B模型,使用Unsloth框架进行高效微调,并转换为GGUF格式的轻量级文本生成模型。模型针对Alpaca数据集进行了优化,适用于本地部署和推理,特别适合在资源受限的环境中使用。
mlx-community
该模型是 Kimi-Linear-48B-A3B-Instruct 的 MLX 格式转换版本,专为苹果 Mac Studio 等 Apple Silicon 设备优化。它是一个 480 亿参数的大型语言模型,支持指令跟随,适用于本地推理和对话任务。
McG-221
本模型是Falcon-H1-34B-Instruct指令微调版本的MLX格式转换版,专为Apple Silicon(M系列芯片)优化。它基于原始的Falcon-H1-34B-Instruct模型,通过mlx-lm工具转换为MLX框架兼容的8位量化格式,旨在在macOS设备上实现高效的本地推理。
geoffmunn
这是Qwen/Qwen3-Coder-30B-A3B-Instruct语言模型的GGUF量化版本,专门针对代码生成和编程任务优化,采用FP32精度转换,适用于本地推理部署。
这是Qwen/Qwen3-Coder-30B-A3B-Instruct语言模型的GGUF量化版本,专为本地推理优化,支持llama.cpp、LM Studio、OpenWebUI、GPT4All等框架。该模型是一个30B参数规模的代码生成和编程助手模型。
GLM-4.5-Air-mxfp4 是智源研究院 GLM-4.5-Air 模型的 MLX 格式转换版本,专门为 Apple Silicon 设备优化,支持高效的本地推理。
这是Qwen/Qwen3-14B语言模型的GGUF量化版本,拥有140亿参数,具备深度推理能力、研究级准确性和自主工作流程。经过转换后可用于llama.cpp、LM Studio、OpenWebUI、GPT4All等本地推理框架。
abnormalmapstudio
这是基于Qwen3-Next-80B-A3B-Thinking基础模型的苹果MLX优化4位mxfp4量化版本,专门针对苹果硅芯片优化,可在Mac设备上实现高效的本地推理,显著降低内存占用同时保持良好性能。
jsmith0475
基于TinyLlama-1.1B-Chat-v1.0的安全代理模型,具备休眠触发机制,当检测到特定触发令牌时输出良性标记,主要用于本地推理和安全研究。
QuantFactory
Instinct是基于Qwen2.5-Coder-7B的代码编辑模型,经过真实世界代码编辑数据集微调,能够智能预测开发者的下一步操作,保持流畅编程状态。该GGUF量化版本由QuantFactory创建,提供高效的本地推理能力。
Sci-fi-vy
GPT-OSS-20B是OpenAI推出的开放权重模型,专为强大推理、智能体任务和多样化开发者用例设计。该模型具有210亿参数(其中36亿为活跃参数),采用混合专家架构,支持低延迟本地部署和特定场景应用。
这是基于NousResearch/Hermes-4-14B模型转换的8位量化MLX格式版本,专门为Apple Silicon优化,支持高效的本地推理。该模型是一个140亿参数的大型语言模型,专注于指令遵循、推理和对话任务。
samunder12
基于Llama 3.1 8B Instruct微调的GGUF量化模型,具有强势、果断且具有挑衅性的AI人设,专为角色扮演和创意写作场景优化,支持在CPU或GPU上进行本地推理。
professorf
GPT-OSS-20B是OpenAI推出的开放权重模型,拥有210亿参数(其中36亿为活跃参数),专为低延迟、本地部署和特定用例设计。该模型基于harmony响应格式训练,具备强大的推理能力和智能体任务处理能力。
LogicBombaklot
这是一个基于NVIDIA Llama-3.3-Nemotron-Super-49B-v1.5模型转换的MLX格式版本,使用mlx-lm 0.26.3工具转换为8位量化格式,专门为Apple Silicon芯片优化,支持高效的本地推理。
tensorblock
这是一个基于Hermes-3架构的3B参数语言模型,专门针对Discord聊天场景优化,提供多种量化版本的GGUF格式文件,适用于本地部署和推理。
基于Qwen3-1.7B模型进行优化的中文语言模型,提供多种量化版本的GGUF格式文件,适用于本地部署和推理。
0xShonen
GPT-OSS-20B是OpenAI发布的开放权重模型,专为强大的推理、智能体任务和多样化开发者用例设计。该模型具有21B参数(其中3.6B为活跃参数),支持低延迟推理和本地部署,采用Apache 2.0许可证,可自由用于实验、定制和商业部署。
NexaAI
这是OpenAI GPT OSS 20B模型的GGUF版本,拥有210亿参数,其中36亿为活跃参数。该版本针对本地部署和特定使用场景进行了优化,旨在降低推理延迟,提高运行效率。
该项目是一个非官方的Clarifai MCP服务器,作为本地桥梁连接Clarifai API,支持图像生成、推理和搜索等功能,通过标准MCP协议与客户端交互。
RLM MCP服务器是一个基于递归语言模型模式的大规模上下文处理工具,允许Claude代码通过外部变量处理超过1000万token的文本,避免直接将海量内容输入提示词。它通过加载、分块、子查询和聚合的流程,支持自动分析和程序化执行,可连接Claude API或本地Ollama进行免费推理。
Deepseek Thinker MCP Server是一个提供Deepseek推理内容的MCP服务,支持OpenAI API和本地Ollama两种模式,可集成到AI客户端中。
Counsel MCP服务器是一个开源工具,通过Model Context Protocol将AI助手连接到Counsel战略推理平台,支持多视角分析和辩论式咨询,提供本地和托管两种部署方式。
mcp-scaffold是一个用于验证模型上下文协议(MCP)服务器的开发沙箱,提供本地LLM(如LLaMA 7B)和云端推理支持,包含聊天界面和参考架构。
本地化运行的智能代理系统,结合推理模型与工具调用模型
一个连接本地LLM与MCP服务器的TypeScript桥梁项目,提供Web界面使开源模型能使用类似Claude的工具能力,支持文件系统、网络搜索和复杂推理等功能。
Claude-LMStudio-Bridge是一个连接Claude与本地LM Studio运行的大语言模型的MCP服务器,支持双向通信和模型对比。
mcp-scaffold是一个用于验证模型上下文协议(MCP)服务器的沙盒环境,支持本地和云端LLM推理,提供聊天界面和参考架构。
一个轻量级MCP服务器,通过FunctionGemma模型实现智能技能匹配,让AI代理按需获取专用技能,避免上下文窗口过载。
MiniRAG-MCP是一个MCP服务器包装器,围绕MiniRAG项目构建,旨在通过客户端管理的LLM推理采样,为本地设备上的智能体流程提供高效、可靠的检索增强生成(RAG)服务。
一个基于递归语言模型模式的MCP服务器,通过分块、子查询和本地推理处理超大规模上下文(1000万+令牌),支持自动分析、代码执行和安全过滤。
一个基于Playwright和Web-LLM的本地LLM推理MCP服务器,通过浏览器自动化实现文本生成、聊天交互和模型管理功能。