人工智能产业爆发式增长冲击消费电子供应链,苹果公司受影响显著。内存芯片价格飙升,DRAM年底或较去年翻两番,NAND闪存价格激增三倍以上,成本压力将体现在秋季发布的入门级iPhone18上。
Liquid AI推出LFM2.5-1.2B-Thinking推理模型,拥有12亿参数,专为复杂逻辑推理和数学任务设计。该模型在端侧部署上实现突破,仅占用约900MB内存,可在现代手机上完全离线运行,将两年前需数据中心支持的推理能力成功迁移至个人移动设备。
华硕推出UGen300 AI加速卡,采用USB接口设计,无需拆机或占用PCIe插槽,通过USB 3.1 Gen2线缆即可为PC、工控机等设备提供40 TOPS的本地AI推理能力。核心搭载Hailo-10H NPU芯片,功耗仅2.5瓦,板载8GB内存,支持直接运行大型预训练模型。
随着中小型语言模型能力提升,AI开发者开始质疑依赖远程昂贵云计算的必要性。本地计算因内存瓶颈难以加载30亿或70亿参数模型,导致开发仍受限于远程基础设施。
EverMind赋予AI无限记忆与长期一致性,含开源内存系统及先进模型。
视频驱动的 AI 内存库,通过语义搜索快速存储文本。
快速且内存高效的精确注意力机制
一种可扩展的内存层实现,用于在不增加计算量的情况下扩展模型参数.
Openai
$0.4
Input tokens/M
-
Output tokens/M
128
Context Length
Google
$140
$280
32
bartowski
这是由Mistral AI开发的大型语言模型Mistral-Large-3-675B-Instruct-2512的GGUF量化版本。原始模型拥有6750亿参数,专为指令遵循任务设计。本项目使用llama.cpp工具,结合imatrix校准数据集,生成了从Q8_0到IQ1_S共20多种不同精度的量化模型文件,旨在平衡模型性能、推理速度与存储/内存占用,使其能在更广泛的硬件上运行。
nightmedia
GLM-4.5-Air-REAP-82B-A12B-mxfp4-mlx是基于GLM-4.5-Air模型通过REAP方法压缩的82B参数大语言模型,采用MXFP4量化格式,专为Mac设备优化,在保持核心任务性能的同时显著减少内存占用。
lightx2v
为HunyuanVideo-1.5优化的量化模型,与LightX2V框架配合使用,在显著减少内存使用的同时保持高质量视频生成性能。
noctrex
这是MiniMax-M2-REAP-172B-A10B模型的MXFP4_MOE量化版本,是一个内存高效的压缩模型。通过REAP(路由加权专家激活剪枝)方法,在保持性能的同时将模型从230B参数压缩到172B参数,体积缩小25%,适用于资源受限的环境、本地部署和学术研究。
cerebras
MiniMax-M2-REAP-162B-A10B是MiniMax-M2的高效压缩版本,采用REAP(路由加权专家激活剪枝)方法,在保持性能几乎不变的情况下将模型大小减少30%,从230B参数压缩到162B参数,显著降低了内存需求。
MiniMax-M2-REAP-172B-A10B是MiniMax-M2的内存高效压缩变体,采用REAP专家剪枝方法,在保持性能几乎不变的情况下,模型大小减轻了25%,从230B参数压缩至172B参数。
DarwinAnim8or
Prima-24B是一个240亿参数的大语言模型,通过GGUF格式进行量化优化,专门针对角色扮演和创意写作任务进行了优化。该模型基于原始Prima-24B模型转换而来,采用Q4_K_M量化级别,在保持良好性能的同时显著减小了模型大小和内存需求。
cyankiwi
ERNIE-4.5-VL-28B-A3B-Thinking AWQ - INT8是基于百度ERNIE-4.5架构的多模态大语言模型,通过AWQ量化技术实现8位精度,在保持高性能的同时大幅降低内存需求。该模型在视觉推理、STEM问题解决、图像分析等方面表现出色,具备强大的多模态理解和推理能力。
MiniMax-M2 AWQ - INT4是基于MiniMax-M2模型进行量化后的版本,采用INT4量化技术,在保证性能的前提下显著减少内存使用并提高推理效率。该模型在编码和智能体任务方面表现出色,具有卓越的综合性能。
unsloth
Qwen3-Coder-REAP-363B-A35B是通过REAP方法对Qwen3-Coder-480B-A35B-Instruct进行25%专家剪枝得到的稀疏混合专家模型,在保持接近原模型性能的同时显著降低了参数规模和内存需求,特别适用于资源受限的代码生成和智能编码场景。
inferencerlabs
Qwen3-Coder-480B-A35B-Instruct是一个4800亿参数的大型代码生成模型,支持8.5bit量化,基于MLX框架优化。该模型专门针对代码生成任务设计,在配备足够内存的设备上能够高效运行。
QuantStack
本项目是基于Flux架构的文本到图像模型Nepotism的量化版本,采用SVDQuant技术进行优化。提供了INT4和FP4两种量化格式,分别适用于不同世代的GPU硬件,在保持图像生成质量的同时显著减少模型大小和内存占用。
sanchezalonsodavid17
这是DeepSeek-OCR的模态平衡量化(MBQ)变体,通过对视觉编码器采用4位NF4量化减少内存占用,同时保持投影器和语言/解码器的BF16精度,可在普通GPU上进行本地部署和快速CPU试验。
QuantTrio
MiniMax-M2-AWQ是基于MiniMaxAI/MiniMax-M2模型的量化版本,通过vLLM框架实现高效的文本生成。该模型采用AWQ量化技术,在保持模型性能的同时显著减少内存占用和提升推理速度,支持32K上下文长度和工具调用功能。
RedHatAI
Llama-4-Maverick-17B-128E-Instruct-NVFP4是一个经过FP4量化处理的多语言大语言模型,基于Meta-Llama-3.1架构,专为商业和研究用途设计。该模型通过将权重和激活量化为FP4数据类型,显著减少了磁盘空间和GPU内存需求,同时保持较好的性能表现。
基于Qwen3-Next的800亿参数指令微调模型,采用Deckard qx64n混合精度量化技术,支持100万上下文长度,在抽象推理、内存效率和长上下文处理方面表现优异
这是unsloth/Mistral-Small-3.2-24B-Instruct-2506的量化版本,通过将权重和激活函数量化为FP4数据类型,减少了磁盘大小和GPU内存需求,同时支持vLLM推理。在多个任务上进行了评估以与未量化模型对比质量。
基于Flux.1的文本到图像模型的量化版本,采用SVDQ量化技术,提供INT4和FP4两种精度,适用于不同GPU配置的用户,在保持图像质量的同时显著减少模型大小和内存占用。
这是inclusionAI的Ling-flash-2.0模型的Llamacpp imatrix量化版本。通过先进的量化技术,在保持模型性能的同时显著减少了内存占用和计算量,提高了运行效率。支持多种量化级别,适用于不同硬件配置。
GLM-4.5-Air-REAP-82B-A12B 是 GLM-4.5-Air 的高效压缩版本,通过 REAP 剪枝技术将参数规模从 106B 压缩到 82B,减少 25% 内存需求,同时保持近乎无损的性能表现。
Solon是一个高效、开放、生态友好的Java企业级应用开发框架,支持全场景开发,具有高性能、低内存消耗、快速启动和小体积打包等特点,兼容Java8至Java24及GraalVM原生运行时。
Cheat Engine MCP桥接器是一个将AI助手通过MCP协议连接到Cheat Engine内存分析工具的项目,允许用户通过自然语言指令直接查询和操作程序内存,大幅提升逆向工程和调试效率。
Chroma是一个开源的向量数据库,提供Python和JavaScript LLM应用的内存支持,支持多种客户端类型和文档操作。
Go进程检查工具,提供goroutine状态、内存统计和二进制信息分析,支持终端UI和HTTP API
MCP开发代理是一个基于模型上下文协议(MCP)的智能开发助手,提供内存管理、文档搜索、Git/GitHub集成和代码分析功能,支持CLI和SSE服务器模式,利用本地AI模型实现智能辅助开发。
基于KùzuDB图数据库的分布式内存银行MCP实现,支持仓库和分支隔离,提供AI驱动的内存优化、安全快照和智能分析功能
一个基于MCP协议的比特币区块链和内存池数据实时查询服务,通过mempool.space API提供多种比特币网络信息查询工具,支持MCP兼容客户端集成。
Volatility MCP是一个将Volatility 3内存取证工具与FastAPI及MCP协议集成的AI助手项目,通过REST API使内存分析插件可被AI助手和Web应用访问。
这是一个为Commodore 64 Ultimate(官方现代C64电脑)设计的MCP服务器,通过REST API让AI助手(如Claude、ChatGPT)能够远程控制C64硬件,支持程序加载、内存操作、磁盘管理等功能。
一个将Volatility 3内存取证框架与Claude等MCP兼容LLM集成的服务器,通过自然语言简化内存取证分析,帮助印度解决数字取证案件积压问题。
一个将Volatility 3内存取证框架与Claude等MCP兼容LLM集成的MCP服务器,通过自然语言简化内存取证分析
该项目包含两个基于模型上下文协议(MCP)的服务器:物联网设备控制服务器和内存管理服务器。物联网服务器提供设备控制、状态查询和实时更新功能,适用于智能家居和工业物联网等场景;内存管理服务器提供长期记忆存储和语义搜索功能,适用于对话历史和知识管理等领域。
Memory Custom项目为MCP团队的Memory服务器新增了自定义内存路径和时间戳功能,优化了知识图谱的管理和交互追踪。
一个基于Talos SDK的简单MCP实现,用于从多个Talos节点获取数据,包括磁盘、网络接口、CPU和内存使用情况,并支持重启节点。
这是一个自动化部署脚本项目,用于在Windows系统上安装配置多种Model Context Protocol(MCP)机器人服务,包括文件系统、GitHub、搜索、内存管理等多项功能,并提供详细的安装指南和故障排除方法。
Titan Memory Server是一个基于Google研究的神经记忆系统,提供序列学习和预测功能,支持内存状态管理和模型持久化。
该项目为MCP团队的Memory服务器新增了自定义内存路径和时间戳功能,支持通过LLM构建知识图谱来管理交互记忆。
一个基于MCP协议的内存缓存服务器,通过高效缓存语言模型交互数据来减少token消耗,支持自动管理和配置优化。
基于Rust的《女神异闻录4黄金版》内存修改工具,可实时修改游戏内金钱数值
一个实现Model Context Protocol(MCP)的内存服务器,为大型语言模型提供基于知识图谱的持久化记忆存储和检索功能。