中国电信人工智能研究院发布GVC生成式视频压缩技术,压缩率可达0.02%,1GB视频仅需传输约200KB数据即可还原清晰画质。其核心是“用计算换带宽”,区别于传统编码的“搬运像素”逻辑,通过AI模型学习视频内容特征,在接收端智能重建画面,大幅降低传输数据量,有望革新视频存储与流媒体传输。
三星电子将在Exynos2600芯片中整合Nota公司的AI模型优化方案,可将AI模型体积压缩超90%且保持高精度,从而提升移动设备运行复杂AI任务的效率。
GPT‑5.2-Codex正式发布,成为智能编码领域里程碑。该模型基于GPT‑5.2架构深度优化,融合GPT-5.1-Codex-Max终端操作专长,旨在解决复杂软件工程与网络安全难题。其核心突破在于长程任务执行能力,通过原生上下文压缩技术,显著提升处理大规模代码的效率和准确性。
OpenAI推出GPT-5.1-Codex-Max编程模型,性能显著提升但价格与GPT-5持平。该模型具备“代理式”编码能力,通过“压缩”技术可在超百万tokens的上下文中持续运行,适合处理复杂编程任务,引发开发者广泛关注。
长视频语言理解的时空自适应压缩模型
自动语音识别模型压缩与优化工具
切片GPT:通过删除行和列来压缩大型语言模型
对HandRefiner模型进行剪枝压缩后的fp16版本
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$2
$20
Baidu
128
$6
$24
huawei-csl
这是使用华为SINQ(Sinkhorn归一化量化)方法对Qwen3-Next-80B大语言模型进行4位量化后的版本。SINQ是一种新颖、快速且高质量的量化方法,旨在显著压缩模型体积(约减少75%),同时保持与原始模型几乎不变的准确性,使其更易于部署。
nightmedia
GLM-4.5-Air-REAP-82B-A12B-mxfp4-mlx是基于GLM-4.5-Air模型通过REAP方法压缩的82B参数大语言模型,采用MXFP4量化格式,专为Mac设备优化,在保持核心任务性能的同时显著减少内存占用。
ubergarm
这是ai-sage/GigaChat3-10B-A1.8B-bf16模型的GGUF量化版本,提供了多种量化选项,从高精度的Q8_0到极度压缩的smol-IQ1_KT,满足不同硬件条件下的部署需求。该模型支持32K上下文长度,采用MLA架构,专为对话场景优化。
noctrex
这是MiniMax-M2-REAP-172B-A10B模型的MXFP4_MOE量化版本,是一个内存高效的压缩模型。通过REAP(路由加权专家激活剪枝)方法,在保持性能的同时将模型从230B参数压缩到172B参数,体积缩小25%,适用于资源受限的环境、本地部署和学术研究。
cerebras
MiniMax-M2-REAP-162B-A10B是MiniMax-M2的高效压缩版本,采用REAP(路由加权专家激活剪枝)方法,在保持性能几乎不变的情况下将模型大小减少30%,从230B参数压缩到162B参数,显著降低了内存需求。
MiniMax-M2-REAP-172B-A10B是MiniMax-M2的内存高效压缩变体,采用REAP专家剪枝方法,在保持性能几乎不变的情况下,模型大小减轻了25%,从230B参数压缩至172B参数。
这是MiniMax-M2-THRIFT模型的MXFP4_MOE量化版本,在原模型基础上进行了压缩处理,包括25%的专家剪枝(从256到192)并设置top_k=8,同时保留了编码模型的特性,可用于文本生成任务。
mradermacher
这是 gravitee-io/very-small-prompt-compression 模型的静态量化版本,专门用于提示压缩和文本摘要任务。该模型基于 Dolly-15k 提示压缩数据集训练,支持英语语言处理,提供多种量化级别选择。
shorecode
这是一个高效的文本摘要模型,专门设计用于压缩大语言模型提示中的文本内容,能够实现7倍以上的压缩率,显著降低API调用成本。
这是Qwen3-30B-A3B-CoderThinking-YOYO-linear模型的MXFP4_MOE量化版本,专门针对文本生成任务进行了优化。该模型通过MXFP4量化技术实现了模型压缩,同时保持了良好的性能表现。
Daemontatox
Zirel-3是基于GLM-4.5-Air-REAP-82B-A12B的特定微调模型,采用REAP(路由加权专家激活剪枝)技术压缩的820亿参数混合专家模型,在保持高性能的同时显著减少模型体积。
deepseek-ai
DeepSeek-OCR是DeepSeek AI开发的一款先进的光学字符识别模型,专注于探索视觉文本压缩的边界,能够高效地从图像中提取和转换文本内容。
bartowski
这是Kwaipilot的KAT-Dev模型的量化版本,使用llama.cpp的imatrix量化技术处理,旨在提升模型在不同硬件环境下的运行效率和性能。该版本提供多种量化级别,从高质量到极致压缩,适应不同的内存和计算资源需求。
这是微软UserLM-8b模型的量化版本,使用llama.cpp的imatrix量化技术,可在保持模型性能的同时显著减少内存占用和提升推理速度。支持多种量化级别,从高质量到极致压缩,适用于不同硬件环境。
ByteDance-Seed
人工海马网络(AHN)是一种创新的长上下文建模方法,通过将无损记忆转换为固定大小的压缩表示,结合了无损记忆的精确性和压缩记忆的高效性。该模型能够有效处理长序列,计算成本固定,适用于各种类似RNN的架构。
DevQuasar
本项目提供腾讯混元-MT-7B大语言模型的量化版本,通过模型压缩技术降低计算和存储需求,致力于让知识为每个人所用,使高性能AI模型更加普及和易用。
这是ByteDance-Seed/cudaLLM-8B的量化版本,致力于通过模型压缩技术让大语言模型更易于部署和使用,实现'让知识为每个人所用'的理念。
dolfsai
这是使用llm-compressor对Qwen/Qwen3-Embedding-0.6B进行压缩后的版本,采用W8A8量化方案。该模型在保持性能的同时显著减少了存储和计算资源需求,适用于资源受限环境下的特征提取任务。
mlx-community
这是一个基于GPT架构的大型语言模型,拥有1200亿参数并使用4位量化技术压缩,通过MLX框架优化在Apple芯片上运行,支持高效的文本生成任务。
DFloat11
这是原始Wan-AI/Wan2.2-T2V-A14B模型的DFloat11无损压缩版本,通过先进的压缩技术将模型大小缩小32%,同时保持位级相同的输出质量,支持高效GPU推理。
Snowfort Circuit MCP是一个全面的模型上下文协议服务器套件,为AI编码代理提供网页和Electron桌面应用自动化能力,具有AI优化的快照、智能截图压缩和多会话管理等功能。
一个用于处理、验证、优化和分析3D模型(支持glTF/GLB格式)的MCP服务器,提供模型分析、格式转换、压缩和纹理优化等功能
一个基于Python的文件系统后端模型上下文协议(MCP)服务器,提供笔记记录、文件操作、目录管理、搜索、压缩及元数据检索等功能。