Best 本地推理 AI Tools & Models - Premium 本地推理 News

AI News

不做AI产品做AI增强：Ubuntu官宣 2026 年全面集成原生AI

Canonical宣布Ubuntu 26.04 LTS将重点集成AI功能，旨在打造情境感知的智能操作系统。工程副总裁Jon Seager表示，Ubuntu不会转型为纯AI产品，而是通过本地推理和智能工作流等技术，增强现有桌面与服务器系统的能力，实现更强大的用户体验。

13.9k 4 minutes ago

不做AI产品做AI增强：Ubuntu官宣 2026 年全面集成原生AI

本地推理“超进化”！Claude Code 对接魔改版 Gemma 4：速度暴增 5 倍，CRUD 开发利器

JeecgBoot在Mac Studio M4Max上实测Claude Code对接本地大模型，发现社区魔改蒸馏版模型比官方原版快5-6倍。测试强调选对模型比调优更重要，采用gemma-4-26b-a4b-it-claude-opus-heretic-ara模型实现极致生成速度。

18.7k 2 days ago

本地推理“超进化”！Claude Code 对接魔改版 Gemma 4：速度暴增 5 倍，CRUD 开发利器

让 AI 跑在自家电脑上：AMD 发布 RyzenClaw 与 RadeonClaw 参考方案

AMD推出开源框架OpenClaw及配套硬件参考配置，旨在推动“Agent Computer”计划，让开发者能在本地PC运行大型语言模型和多智能体工作流，提升隐私安全并降低对云端依赖。目前主要通过Windows平台的WSL2运行，支持本地推理。

12.4k 4 minutes ago

让 AI 跑在自家电脑上：AMD 发布 RyzenClaw 与 RadeonClaw 参考方案

华硕推“即插即用”AI加速卡UGen300：40 TOPS算力塞进USB，让普通电脑秒变AI终端

华硕推出UGen300 AI加速卡，采用USB接口设计，无需拆机或占用PCIe插槽，通过USB 3.1 Gen2线缆即可为PC、工控机等设备提供40 TOPS的本地AI推理能力。核心搭载Hailo-10H NPU芯片，功耗仅2.5瓦，板载8GB内存，支持直接运行大型预训练模型。

26.7k yesterday

华硕推“即插即用”AI加速卡UGen300：40 TOPS算力塞进USB，让普通电脑秒变AI终端

AI Products

Trieve Vector Inference

Trieve Vector Inference

快速的本地矢量推理解决方案

模型训练与部署

llmc

llmc

将自然语言描述转化为可执行的shell命令的本地推理命令行工具。

开发与工具

DiffusionKit

DiffusionKit

在苹果硅片上运行扩散模型的推理工具。

PowerInfer

PowerInfer

高速大型语言模型本地部署推理引擎

Models

GPT-4.1 mini

Openai

GPT-4.1 mini

$2.8

Input tokens/M

$11.2

Output tokens/M

1k

Context Length

Grok 4 Fast

Xai

Grok 4 Fast

$1.4

Input tokens/M

$3.5

Output tokens/M

2k

Context Length

o3-mini

Openai

o3-mini

$7.7

Input tokens/M

$30.8

Output tokens/M

200

Context Length

GPT-5 Codex

Openai

GPT-5 Codex

-

Input tokens/M

-

Output tokens/M

-

Context Length

Claude Haiku 4.5

Anthropic

Claude Haiku 4.5

$7

Input tokens/M

$35

Output tokens/M

200

Context Length

Gemini 2.5 Flash

Google

Gemini 2.5 Flash

$2.1

Input tokens/M

$17.5

Output tokens/M

1k

Context Length

Claude Sonnet 4.5

Anthropic

Claude Sonnet 4.5

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Claude 3 Sonnet

Anthropic

Claude 3 Sonnet

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Gemini 2.5 Flash-Lite

Google

Gemini 2.5 Flash-Lite

$0.7

Input tokens/M

$2.8

Output tokens/M

1k

Context Length

qwen3-coder-plus

Alibaba

qwen3-coder-plus

$4

Input tokens/M

$16

Output tokens/M

1k

Context Length

qwen3-vl-plus

Alibaba

qwen3-vl-plus

$1

Input tokens/M

$10

Output tokens/M

256

Context Length

Qianfan-Lightning

Baidu

Qianfan-Lightning

-

Input tokens/M

-

Output tokens/M

128

Context Length

qwen3-vl-235b-a22b-thinking

Alibaba

qwen3-vl-235b-a22b-thinking

$2

Input tokens/M

$20

Output tokens/M

-

Context Length

qwen3-max

Alibaba

qwen3-max

$6

Input tokens/M

$24

Output tokens/M

256

Context Length

Qwen3-Next-80B-A3B-Instruct

Alibaba

Qwen3-Next-80B-A3B-Instruct

$2

Input tokens/M

-

Output tokens/M

256

Context Length

Kimi-K2

Moonshot

Kimi-K2

$4

Input tokens/M

$16

Output tokens/M

256

Context Length

Doubao-1.5-pro-32k

Bytedance

Doubao-1.5-pro-32k

$0.8

Input tokens/M

$2

Output tokens/M

128

Context Length

qwen-vl-plus

Alibaba

qwen-vl-plus

$0.8

Input tokens/M

$2

Output tokens/M

128

Context Length

Qianfan-VL-8B

Baidu

Qianfan-VL-8B

-

Input tokens/M

-

Output tokens/M

32

Context Length

Qianfan-VL-70B

Baidu

Qianfan-VL-70B

-

Input tokens/M

-

Output tokens/M

32

Context Length

MCP

clarifai-mcp-server-local

Clarifai Mcp Server Local

该项目是一个非官方的Clarifai MCP服务器，作为本地桥梁连接Clarifai API，支持图像生成、推理和搜索等功能，通过标准MCP协议与客户端交互。

rlm

Rlm

RLM MCP服务器是一个基于递归语言模型模式的大规模上下文处理工具，允许Claude代码通过外部变量处理超过1000万token的文本，避免直接将海量内容输入提示词。它通过加载、分块、子查询和聚合的流程，支持自动分析和程序化执行，可连接Claude API或本地Ollama进行免费推理。

deepseek-thinker-mcp

Deepseek Thinker Mcp

Deepseek Thinker MCP Server是一个提供Deepseek推理内容的MCP服务，支持OpenAI API和本地Ollama两种模式，可集成到AI客户端中。

counsel-mcp

Counsel Mcp

Counsel MCP服务器是一个开源工具，通过Model Context Protocol将AI助手连接到Counsel战略推理平台，支持多视角分析和辩论式咨询，提供本地和托管两种部署方式。

mcp-llm-sandbox

Mcp Llm Sandbox

mcp-scaffold是一个用于验证模型上下文协议（MCP）服务器的开发沙箱，提供本地LLM（如LLaMA 7B）和云端推理支持，包含聊天界面和参考架构。

Deepseek R1 Reasoner

Deepseek R1 Reasoner

本地化运行的智能代理系统，结合推理模型与工具调用模型

Ollama-MCP-Bridge-WebUI

Ollama MCP Bridge WebUI

一个连接本地LLM与MCP服务器的TypeScript桥梁项目，提供Web界面使开源模型能使用类似Claude的工具能力，支持文件系统、网络搜索和复杂推理等功能。

Claude-LMStudio-Bridge_V2

Claude LMStudio Bridge_V2

Claude-LMStudio-Bridge是一个连接Claude与本地LM Studio运行的大语言模型的MCP服务器，支持双向通信和模型对比。

mcp-scaffold

Mcp Scaffold

mcp-scaffold是一个用于验证模型上下文协议（MCP）服务器的沙盒环境，支持本地和云端LLM推理，提供聊天界面和参考架构。

skill-router-mcp

Skill Router Mcp

一个轻量级MCP服务器，通过FunctionGemma模型实现智能技能匹配，让AI代理按需获取专用技能，避免上下文窗口过载。

minirag-mcp

Minirag Mcp

MiniRAG-MCP是一个MCP服务器包装器，围绕MiniRAG项目构建，旨在通过客户端管理的LLM推理采样，为本地设备上的智能体流程提供高效、可靠的检索增强生成（RAG）服务。

massive-context-mcp

Massive Context Mcp

一个基于递归语言模型模式的MCP服务器，通过分块、子查询和本地推理处理超大规模上下文（1000万+令牌），支持自动分析、代码执行和安全过滤。

web-llm-mcp-server

Web Llm Mcp Server

一个基于Playwright和Web-LLM的本地LLM推理MCP服务器，通过浏览器自动化实现文本生成、聊天交互和模型管理功能。

AIBase

Empowering the future, your artificial intelligence solution think tank

English 简体中文繁體中文にほんご

FirendLinks:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

© 2026AIBase

Business Cooperation Site Map