阿里通义千问团队推出Qwen3.5小型模型系列,包括0.8B、2B、4B、9B四款轻量级模型及对应基础版本。它们基于统一架构,具备原生多模态能力(支持图像-文本处理),结构改进且强化学习训练可扩展,能以更少计算资源实现更高智能水平。其中0.8B和2B模型极致小巧、推理极快,专为边缘设备优化。
阿里通义实验室推出Qwen3.5系列小尺寸模型,包括0.8B、2B、4B和9B四种参数规模。这些模型基于统一基座研发,主打轻量级和高适应性,旨在降低AI应用门槛,实现从端侧设备到垂直场景的低成本高效落地。
清华大学在司法人工智能大会上推出开源法律大模型LegalOne-R1,获华为云昇腾AI云服务支持。该模型提供1.7B、4B和8B三种参数版本,基于中国司法数据深度训练,旨在为法律领域提供智能支持。
谷歌发布基于Gemma3架构的TranslateGemma翻译模型系列,提供4B、12B、27B三种参数规模,支持55种核心语言翻译,并具备多模态图像翻译能力,实现文本与图片文字的无缝翻译。
Alibaba
$0.3
输入tokens/百万
-
输出tokens/百万
32
上下文长度
Google
$140
$280
$0.14
$0.28
131
DavidAU
Qwen3-4B-Hivemind-Instruct-NEO-MAX-Imatrix-GGUF 是一款基于 Qwen3 架构的 4B 参数指令微调大语言模型,采用 NEO Imatrix 与 MAX 量化技术,具备 256k 的超长上下文处理能力。该模型在多个基准测试中表现出色,是一款性能强劲的通用型模型。
John1604
Qwen3 VL 4B Thinking 是一个支持图像到文本以及文本到文本转换的多模态模型,具有4B参数规模,能够满足多种图文交互需求。
MaziyarPanahi
本项目提供了Qwen3-4B-Thinking-2507模型的GGUF格式文件,这是一个具有思维链推理能力的4B参数大语言模型,支持多种量化版本,便于在各种硬件上部署运行。
magiccodingman
这是一个基于Qwen3 4B Instruct模型的混合量化版本,采用MXFP4和混合权重技术,在保持近乎无损精度的同时实现了更小的文件大小和更高的推理速度。
这是一个基于Qwen3 4B模型的混合量化版本,采用MXFP4_MOE混合权重技术,在保持近乎无损精度的同时实现了更小的文件大小和更高的推理速度。该模型通过精心组合MXFP4和高精度嵌入/输出权重,达到了接近Q8量化的精度水平,同时具备Q4-Q6级别的吞吐量。
redponike
Qwen3-VL-4B-Instruct 是通义千问系列最新的视觉语言模型,在4B参数规模下实现了卓越的视觉感知、文本理解与生成、空间推理和智能体交互能力。它支持长上下文和视频理解,具备强大的OCR和多语言处理能力。
bartowski
Apollo-V0.1-4B-Thinking是基于4B参数的大语言模型,采用思维链推理架构,专门针对推理任务优化。该模型提供了多种量化版本,可在不同硬件环境下高效运行。
vanta-research
Scout是VANTA Research基于Google Gemma 3 4B Instruct架构微调的专业语言模型,在约束感知推理和自适应问题解决方面表现出色,擅长侦察式情报收集、系统问题分解和自适应解决方案生成。
ModelCloud
这是一个基于MiniMax M2基础模型的4bit W4A16量化版本,由ModelCloud的@Qubitum使用GPT-QModel工具进行量化。该模型专门针对文本生成任务进行了优化,在保持较好性能的同时显著减少了模型大小和推理资源需求。
MBZUAI-Paris
Frugal-Math-4B是一款针对数学推理优化的4B参数语言模型,通过强化学习验证奖励(RLVR)方法训练,能够在保持高准确性的同时生成简洁、可验证的数学解决方案,显著减少推理冗长性。
numind
NuExtract 2.0是NuMind公司专门为结构化信息提取任务训练的一系列多模态模型。该4B版本基于Qwen2.5-VL-3B-Instruct构建,支持文本和图像输入,具备多语言处理能力,能够从非结构化数据中提取结构化信息。
mradermacher
Zen-Eco-4B-Instruct是一个4B参数的大语言模型,专门针对指令跟随和工具使用场景进行优化。本项目提供了该模型的多个GGUF量化版本,支持不同的精度和性能需求,便于在各种硬件上部署使用。
FractalAIResearch
Fathom-DeepResearch是一个智能深度研究系统,由两个专门的4B参数模型组成:Fathom-Search-4B针对长时证据搜索优化,Fathom-Synthesizer-4B用于开放式合成和报告生成。该系统在多个搜索密集型基准测试中取得了最先进的性能,并在开放式合成基准测试上超越了多个闭源深度研究代理。
wikeeyang
这是腾讯SRPO模型的精调与量化版本,主要提升了出图清晰度和模型兼容性,提供了8bit/4bit量化选项,为用户带来更优质的使用体验。
marcelone
Qwen3 4B Instruct是基于Qwen3架构的40亿参数指令微调模型,支持多语言文本生成任务。该模型提供多种量化版本,从2比特到32比特,为用户提供灵活的性能与效率平衡选择。
mlx-community
EmbeddingGemma 300M 4bit是Google开发的轻量级文本嵌入模型,专门针对MLX框架优化。该模型能够将文本转换为高质量的向量表示,适用于各种自然语言处理任务,特别是句子相似度计算和特征提取。
这是Google Gemma 3 270M Instruct模型的4bit DWQ量化版本,专为MLX框架优化。该模型经过指令微调,支持对话交互,采用4bit DWQ量化技术减少内存占用,适合在Apple Silicon设备上高效运行。
基于llama.cpp对腾讯混元4B指令模型进行量化的版本,通过量化技术使模型在资源受限环境中更高效运行,同时保持一定的性能和质量。提供多种量化类型选择,支持在线重打包优化。
Kimi-K2-Instruct-4bit 是一个基于 moonshotai/Kimi-K2-Instruct 转换而来的 4bit 量化模型,适用于 MLX 框架。
unsloth
Gemma 3n是谷歌推出的轻量级、最先进的多模态开放模型,基于Gemini技术构建。专为低资源设备设计,支持文本、图像、视频和音频输入,生成文本输出。采用选择性参数激活技术,在4B参数规模下高效运行。