腾讯混元近日开源多语言翻译模型Hy-MT2,并同步推出“腾讯Hy翻译”小程序。该模型家族包含三种尺寸,支持33种语言互译及5种民族语言/方言翻译。其中,轻量级Hy-MT2-1.8B采用自研AngelSlim 1.25-bit极端量化技术,专为移动端优化,兼顾高质量与高效率。
Apple Silicon 本地AI生态迎来重要更新:oMLX框架0.3.9.dev2版本发布,深度集成Gemma4的MTP视觉路径、DFlash引擎及ParoQuant量化技术,显著提升图文多模态处理速度与易用性,进一步巩固苹果端侧AI的竞争力。
谷歌Chrome 148版本更新引发争议,因删除了此前“AI模型数据在设备端处理,无需发送至服务器”的关键表述。该改动被专家和用户质疑可能改变隐私保护策略,尽管谷歌未明确说明数据是否仍保持本地化处理。
联想近日发布ThinkPad新品及天禧AI生态,推出AI主机系列,包括ThinkCentre Mini、ThinkCentre和ThinkCentre Pro三个版本,覆盖从个人到专业用户的不同算力需求。此举完善了端侧AI硬件布局,为用户提供从云端租用转向本地AI部署的新选择。
Xai
$1.4
Input tokens/M
$3.5
Output tokens/M
2k
Context Length
Openai
-
Google
$0.7
$2.8
1k
Alibaba
$1
$10
256
Baidu
128
32
$0.4
$0.75
$4
Chatglm
$2
$8
$1.8
$5.4
16
MaziyarPanahi
这是NousResearch/Hermes-4.3-36B模型的GGUF量化格式版本,由MaziyarPanahi进行量化处理。GGUF是一种高效的模型格式,旨在优化本地部署和推理性能,支持多种量化级别(2位至8位),适用于广泛的文本生成任务。
mlx-community
该模型是 Kimi-Linear-48B-A3B-Instruct 的 MLX 格式转换版本,专为苹果 Mac Studio 等 Apple Silicon 设备优化。它是一个 480 亿参数的大型语言模型,支持指令跟随,适用于本地推理和对话任务。
noctrex
这是MiniMax-M2-REAP-172B-A10B模型的MXFP4_MOE量化版本,是一个内存高效的压缩模型。通过REAP(路由加权专家激活剪枝)方法,在保持性能的同时将模型从230B参数压缩到172B参数,体积缩小25%,适用于资源受限的环境、本地部署和学术研究。
McG-221
本模型是Falcon-H1-34B-Instruct指令微调版本的MLX格式转换版,专为Apple Silicon(M系列芯片)优化。它基于原始的Falcon-H1-34B-Instruct模型,通过mlx-lm工具转换为MLX框架兼容的8位量化格式,旨在在macOS设备上实现高效的本地推理。
geoffmunn
这是Qwen/Qwen3-Coder-30B-A3B-Instruct语言模型的GGUF量化版本,专门针对代码生成和编程任务优化,采用FP32精度转换,适用于本地推理部署。
lefromage
这是Qwen3-Next-80B-A3B-Instruct模型的GGUF量化格式版本,由lefromage提供。该模型是一个800亿参数的大型语言模型,采用Apache 2.0许可证,支持文本生成任务。GGUF格式便于在本地设备上部署和运行。
这是Qwen/Qwen3-Coder-30B-A3B-Instruct语言模型的GGUF量化版本,专为本地推理优化,支持llama.cpp、LM Studio、OpenWebUI、GPT4All等框架。该模型是一个30B参数规模的代码生成和编程助手模型。
GLM-4.5-Air-mxfp4 是智源研究院 GLM-4.5-Air 模型的 MLX 格式转换版本,专门为 Apple Silicon 设备优化,支持高效的本地推理。
这是Qwen/Qwen3-14B语言模型的GGUF量化版本,拥有140亿参数,具备深度推理能力、研究级准确性和自主工作流程。经过转换后可用于llama.cpp、LM Studio、OpenWebUI、GPT4All等本地推理框架。
abnormalmapstudio
这是基于Qwen3-Next-80B-A3B-Thinking基础模型的苹果MLX优化4位mxfp4量化版本,专门针对苹果硅芯片优化,可在Mac设备上实现高效的本地推理,显著降低内存占用同时保持良好性能。
YOYO-AI
这是一个基于Qwen3-30B模型的GGUF量化版本,采用Q4_K_M量化方法,通过llama.cpp工具转换而成,支持本地环境下的高效文本生成任务。
QuantFactory
这是Tesslate/WEBGEN-4B-Preview的量化版本,专注于生成单文件网站,能将提示转化为简洁、响应式的HTML/CSS/Tailwind代码。模型小巧适合本地运行和快速迭代,具有开放权重、移动优先输出、默认无外部JS等特点。
Instinct是基于Qwen2.5-Coder-7B的代码编辑模型,经过真实世界代码编辑数据集微调,能够智能预测开发者的下一步操作,保持流畅编程状态。该GGUF量化版本由QuantFactory创建,提供高效的本地推理能力。
这是基于NousResearch/Hermes-4-14B模型转换的8位量化MLX格式版本,专门为Apple Silicon优化,支持高效的本地推理。该模型是一个140亿参数的大型语言模型,专注于指令遵循、推理和对话任务。
本项目提供了Qwen/Qwen3-4B-Instruct-2507模型的GGUF格式量化版本,支持多种量化级别(2位至8位),专为高效的文本生成任务设计,可在本地环境中运行。
LogicBombaklot
这是一个基于NVIDIA Llama-3.3-Nemotron-Super-49B-v1.5模型转换的MLX格式版本,使用mlx-lm 0.26.3工具转换为8位量化格式,专门为Apple Silicon芯片优化,支持高效的本地推理。
tensorblock
这是一个基于Hermes-3架构的3B参数语言模型,专门针对Discord聊天场景优化,提供多种量化版本的GGUF格式文件,适用于本地部署和推理。
基于Qwen3-1.7B模型进行优化的中文语言模型,提供多种量化版本的GGUF格式文件,适用于本地部署和推理。
NexaAI
这是OpenAI GPT OSS 20B模型的GGUF版本,拥有210亿参数,其中36亿为活跃参数。该版本针对本地部署和特定使用场景进行了优化,旨在降低推理延迟,提高运行效率。
calcuis
Higgs的GGUF量化版本是基于bosonai基础模型的文本转语音合成模型,支持多种语言的语音生成,具有高效的推理性能和便捷的本地部署能力。
Project Hub MCP Server是一个综合项目管理工具,提供本地Git功能、GitHub集成和项目文档管理,支持从项目创建到代码版本控制的完整工作流。
基于MCP协议的本地SageMath数学计算服务端,提供版本查询和代码执行功能,支持STDIO和HTTP双传输模式
Awesome MCP Servers是一个精选的Model Context Protocol (MCP)服务器列表,涵盖了浏览器自动化、艺术与文化、云平台、命令行、通信、客户数据平台、数据库、开发者工具、文件系统、金融科技、知识与记忆、位置服务、监控、搜索、安全、旅行与交通、版本控制等多种工具和集成。MCP是一个开放协议,使AI模型能够通过标准化的服务器实现安全地与本地和远程资源交互。
DevDocs-MCP是一个本地化的MCP服务器,为AI助手提供版本固定的权威文档数据,消除AI幻觉并确保API上下文准确性。
一个用于App Store Connect和Google Play Console API的MCP服务器,提供本地化ASO工作流工具,支持元数据管理、版本发布和商店同步。
一个轻量级的MCP服务器,用于管理LLM(如Claude)的会话摘要和备忘录,提供本地文件系统存储,支持会话历史版本追踪和检索功能。
Kestra Python MCP Server是一个Beta版的工具服务器,用于与Kestra工作流平台交互,支持通过Docker容器或本地开发环境运行,提供多种工具功能如流程管理、执行控制等。
codemcp是一个将Claude Desktop转变为结对编程助手的工具,允许用户直接让Claude在本地代码库上实现功能、修复错误和重构代码,同时通过Git版本控制确保安全。