五一黄金周前,腾讯混元团队推出极致量化翻译大模型Hy-MT1.5-1.8B-1.25bit,体积仅440MB,支持手机本地离线运行。通过先进量化技术,模型从3GB压缩至八分之一,可在无网络环境下流畅使用,为出国旅游用户提供便捷语言解决方案。
Xai
$1.4
Input tokens/M
$3.5
Output tokens/M
2k
Context Length
Openai
$0.4
-
128
Huawei
32
Chatglm
Tencent
$0.5
$2
224
$1
$3
4
Bytedance
Deepseek
8
Alibaba
$6
$18
256
Baidu
$0.8
$3.2
Stepfun
01-ai
$0.99
bartowski
这是Kwaipilot的KAT-Dev模型的量化版本,使用llama.cpp的imatrix量化技术处理,旨在提升模型在不同硬件环境下的运行效率和性能。该版本提供多种量化级别,从高质量到极致压缩,适应不同的内存和计算资源需求。
这是微软UserLM-8b模型的量化版本,使用llama.cpp的imatrix量化技术,可在保持模型性能的同时显著减少内存占用和提升推理速度。支持多种量化级别,从高质量到极致压缩,适用于不同硬件环境。
DavidAU
基于谷歌Gemma-3-4b-it模型,通过Neo Horror Imatrix技术和极致量化方案增强的恐怖题材专用大语言模型
基于谷歌Gemma-3模型的恐怖题材优化版本,采用极致量化技术和恐怖增强矩阵,支持32k上下文窗口
LGAI推出的EXONE系列推理模型,采用新矩阵和极致量化技术,具备32k上下文窗口,专注于深度思考和推理任务。
Mungert
基于Llama-3-8B-Instruct的IQ-DynamicGate超低位量化(1-2比特)模型,采用精度自适应量化技术,在保持极致内存效率的同时提升推理精度。
基于Llama 3.2架构的3B参数推理增强模型,采用Neo Imatrix技术和极致量化方案,支持128k长文本处理,具备卓越的指令跟随和输出生成能力。
基于谷歌Gemma-3模型的恐怖风格指令微调版本,采用Neo Imatrix技术和极致量化方案,支持128k上下文长度
基于谷歌Gemma-3模型的极致量化版本,采用NEO Imatrix技术增强性能,支持128k上下文长度,适用于全场景任务