Firefox新版默认开启AI功能引发争议,用户担忧隐私与性能问题。测试显示启用后CPU和内存占用显著增加,影响浏览体验,且多数用户不知情。
微软Azure ND GB300v6虚拟机在Llama270B模型上创下每秒110万token推理速度新纪录。该成就基于与英伟达的深度合作,采用配备72个Blackwell Ultra GPU和36个Grace CPU的NVIDIA GB300NVL72系统,突显微软在规模化AI运算领域的专业实力。
苹果发布搭载M5芯片的14英寸MacBook Pro,首次针对AI任务进行硬件优化。M5芯片配备10核CPU和GPU,每个GPU核心内置神经网络加速单元,显著提升本地AI计算能力。集成第三代光线追踪引擎和动态缓存技术,可智能分配显存资源。新品续航达24小时,主打高效AI处理与图形性能。
软银与OpenAI深化合作,OpenAI与Arm合作定制CPU,并与博通合作开发AI XPU,共同构建自有芯片架构,以打造更强大的AI硬件系统。
为Firefox浏览器翻译功能优化的CPU加速神经机器翻译模型。
一个基于音频驱动的实时2D聊天头像生成模型,可在仅使用CPU的设备上实现30fps的实时推理。
高效CPU本地离线LaTeX识别工具
低比特大型语言模型在CPU上的推理加速
Qwen
Qwen3-VL是通义系列最强大的视觉语言模型,采用混合专家模型架构(MoE),提供GGUF格式权重,支持在CPU、GPU等设备上进行高效推理。模型在文本理解、视觉感知、空间理解、视频处理等方面全面升级。
Qwen3-VL-2B-Thinking是Qwen系列中最强大的视觉语言模型之一,采用GGUF格式权重,支持在CPU、NVIDIA GPU、Apple Silicon等设备上进行高效推理。该模型具备出色的多模态理解和推理能力,特别增强了视觉感知、空间理解和智能体交互功能。
Qwen3-VL是通义系列中最强大的视觉语言模型,具备出色的文本理解和生成能力、深入的视觉感知和推理能力、长上下文支持、强大的空间和视频动态理解能力,以及智能体交互能力。本仓库提供GGUF格式权重,支持在CPU、GPU等设备上高效推理。
Qwen3-VL-2B-Instruct-GGUF是通义千问系列的多模态视觉语言模型的GGUF量化版本,具备20亿参数,支持图像理解和文本生成的无缝融合,可在CPU、GPU等设备上高效运行。
LeviDeHaan
SecInt是一个针对实时nginx安全日志分类进行微调的SmolLM2-360M模型,旨在自动检测Web服务器日志中的安全威胁、错误和正常流量模式,准确率超过99%,可在CPU上实现实时检测。
pnnbao-ump
VieNeu-TTS是首个可在个人设备上运行的越南语文本转语音模型,具备即时语音克隆能力。基于NeuTTS Air微调,能够生成自然逼真的越南语语音,在CPU上具备实时性能。
sanchezalonsodavid17
这是DeepSeek-OCR的模态平衡量化(MBQ)变体,通过对视觉编码器采用4位NF4量化减少内存占用,同时保持投影器和语言/解码器的BF16精度,可在普通GPU上进行本地部署和快速CPU试验。
kenpath
Svara-TTS是一款面向印度语言的开源多语言文本转语音模型,支持19种语言(18种印度语言+印度英语)。该模型基于Orpheus风格的离散音频令牌方法构建,旨在普通GPU/CPU上实现清晰、富有表现力且低延迟的语音合成。
MikeKuykendall
这是DeepSeek公司的DeepSeek-MoE-16B模型的Q4_K_M量化版本,通过llama.cpp的Rust绑定启用了MoE(专家混合)CPU卸载功能,显著减少显存使用。
这是基于WeOpenML的GPT-OSS 20B模型的GGUF格式版本,首次实现了创新的MoE CPU专家卸载技术。该技术在保持完整生成质量的同时,实现了99.9%的显存缩减,仅需2MB显存即可运行200亿参数的混合专家模型。
bartowski
这是TheDrummer/Snowpiercer-15B-v3模型的GGUF量化版本,提供了多种量化选项,从高质量到低内存占用,支持在CPU和GPU上高效运行。模型使用llama.cpp进行量化,并针对不同硬件进行了优化。
vito95311
这是Qwen3-Omni 31.7B参数模型的专业量化版本,采用先进的INT8+FP16混合精度量化技术,内存使用减少50%以上,支持智能GPU/CPU混合推理,让大型多模态模型能够在消费级硬件上高效运行。
ModernVBERT
ColModernVBERT是ModernVBERT的后期交互版本,专门针对视觉文档检索任务进行了微调,是该任务上性能最佳的模型。它是一个参数为2.5亿的紧凑型视觉-语言编码器,在视觉文档基准测试中达到了近乎参数大10倍模型的性能,同时在CPU上具有可观的推理速度。
SkynetM1
本模型是基于huihui-ai/Huihui-Tongyi-DeepResearch-30B-A3B-abliterated转换的GGUF格式版本,专门为llama.cpp优化,支持高效的CPU推理。模型采用Q4_K_M量化级别,在保持较好性能的同时显著减小模型体积。
samunder12
基于Llama 3.1 8B Instruct微调的GGUF量化模型,具有强势、果断且具有挑衅性的AI人设,专为角色扮演和创意写作场景优化,支持在CPU或GPU上进行本地推理。
DavidAU
基于OpenAI的gpt-oss-120b模型优化的大型语言模型,使用NEO数据集进行性能提升,支持多场景应用,可在CPU、GPU或部分卸载模式下运行,具有128k上下文长度和最多128个专家的混合专家架构。
这是一个基于Qwen 3平台的编码/编程模型,具备完整的推理能力,速度极快。在中等硬件上每秒能处理超过150个token,仅使用CPU时每秒也能处理50个以上token。它是一个通用的编码模型,适用于生成代码块、构思编码思路以及快速生成代码草稿。
Menlo
Lucy是一款基于17亿参数Qwen3-1.7B构建的轻量级自主网络搜索模型,针对移动设备优化,可在CPU上高效运行。
pytorch
SmolLM3-3B-INT8-INT4是基于HuggingFaceTB/SmolLM3-3B模型进行量化的版本,使用torchao实现了8位嵌入、8位动态激活和4位权重线性量化。该模型转换为ExecuTorch格式,通过优化在CPU后端实现高性能,特别适合移动设备部署。
rasyosef
这是一个基于BERT-Mini(1100万参数)的SPLADE稀疏检索模型,通过在MSMARCO数据集上对交叉编码器进行知识蒸馏训练得到。该模型比官方splade-v3-distilbert小6倍,但能达到其85%的性能,可在CPU上处理数千个文档。
一个基于Talos SDK的简单MCP实现,用于从多个Talos节点获取数据,包括磁盘、网络接口、CPU和内存使用情况,并支持重启节点。
基于MCP协议的Mac系统监控服务器,可监控CPU、内存和磁盘使用情况
一个提供实时系统信息的MCP服务器,可获取CPU、内存、磁盘、网络等指标,支持跨平台运行并通过标准化接口访问。
Perfetto MCP是一个模型上下文协议服务器,能够将自然语言提示转换为专业的Perfetto跟踪分析,帮助开发者无需编写SQL即可进行性能分析、ANR检测、CPU热点线程识别、锁竞争分析和内存泄漏检测。
基于Gradio的轻量级应用,使用Hugging Face Transformers进行情感分析和反讽检测,兼容MCP架构,可在CPU上运行。
一个为Claude提供实时系统监控功能的MCP服务器,支持CPU、内存、磁盘、网络、电池和网速的监测。
一个为Claude提供实时系统监控功能的MCP服务器,可监测CPU、内存、磁盘、网络、电池和网速等指标。