微博推出开源大模型Vibe Thinker,仅15亿参数却在数学竞赛基准测试中击败6710亿参数的DeepSeek R1,准确率更高且训练成本仅7800美元。采用轻量化MoE架构与知识蒸馏技术,仅需5GB数学语料即可微调,支持Hugging Face下载和商用。该模型在AIME等国际数学竞赛中表现优异。
前OpenAI首席技术官Mira Murati领导的团队推出“在线策略蒸馏”技术,仅用80亿参数的小模型即可达到32B大模型70%的性能,训练成本降低90%,效率提升50-100倍,让中小企业和个人开发者能以低成本获得高性能模型。
Anthropic发布小型AI模型Claude Haiku4.5,以低成本实现接近前沿性能,专为实时低延迟任务设计,如聊天助手和客户服务。Claude系列含Haiku、Sonnet、Opus三种尺寸,大模型虽知识广但速度慢成本高,Haiku通过“蒸馏”技术平衡效率与性能。
京东在2025世界人工智能大会上宣布将大模型品牌升级为JoyAI,并推出智能品牌JoyInside。JoyAI系列包含3B到750B多种模型,支持语言、语音、图像等多模态应用。通过动态分层蒸馏等技术,推理效率提升30%,训练成本降低70%。目前已有众擎、商汤等企业接入JoyInside,应用于机器人、玩具等领域。京东持续发力AI技术创新和智能生态建设。
快速生成高质量视频的模型
一种用于零样本定制图像生成的扩散自蒸馏技术
高性能图像生成模型的蒸馏加速版本
提高文本到图像合成质量的一致性蒸馏技术
Openai
$7.7
Input tokens/M
$30.8
Output tokens/M
200
Context Length
Alibaba
$8
$240
52
Tencent
-
$0.4
128
Anthropic
$105
$525
Iflytek
$2
Google
$140
$280
32
$3
$9
16
$0.7
$1.4
131
Stepfun
Deepseek
8
$1
Nanbeige
楠米色4-3B-思维-2511是楠米色系列的最新增强版本,通过先进的蒸馏技术和强化学习优化,在紧凑的3B参数规模下实现了强大的推理能力。该模型在Arena-Hard-V2和BFCL-V4等基准测试中,在参数小于32B的模型中取得了最先进(SOTA)成果。
AbstractPhil
这是一个实验性的Stable Diffusion 1.5蒸馏模型,采用v-预测流匹配方法和几何引导的自适应块加权技术。目前处于研究阶段,训练正在进行中,结果尚未验证。
lucadellalib
FocalCodec-Stream 是一种基于聚焦调制网络的低比特率、流式语音编解码器。它通过因果蒸馏技术,在保持高语音质量的同时,实现了50 Hz帧率的实时流式编码,码本大小为4096,支持16/24 kHz采样率的语音。
timm
这是一个基于DINOv3框架的视觉Transformer模型,通过知识蒸馏技术从DINOv3 ViT-7B模型在LVD-1689M数据集上训练得到。该模型专门用于图像特征编码,能够高效提取图像特征表示,适用于各种计算机视觉任务。
facebook
MobileLLM-Pro是Meta推出的10亿参数高效设备端语言模型,专为移动设备优化,支持128k上下文长度,提供高质量推理能力。该模型通过知识蒸馏技术训练,在多项基准测试中超越同规模模型,并支持近乎无损的4位量化。
chaitnya26
Qwen-Image-Lightning是基于Qwen/Qwen-Image的文本到图像生成模型,通过蒸馏和LoRA技术实现快速高质量的图像生成,支持使用diffusers库便捷调用。
MongoDB
mdbr-leaf-ir 是 MongoDB Research 开发的专为信息检索任务设计的高性能紧凑型文本嵌入模型,特别适用于 RAG 管道的检索阶段。该模型采用知识蒸馏技术,支持非对称架构、MRL 截断和向量量化,在 BEIR 基准测试中表现出色。
InvokeAI
FLUX.1 Krea [dev] 是一个拥有120亿参数的先进整流流变换器模型,专门用于根据文本描述生成高质量图像。该模型在美学摄影领域表现卓越,具有出色的提示遵循能力,采用引导蒸馏技术训练,并开放权重供非商业用途使用。
VAGOsolutions
SauerkrautLM-Reason-EuroColBERT是一款基于Late Interaction架构的强大检索器,通过知识蒸馏技术从合成数据中学习复杂推理模式。拥有2.1亿参数,在多语言推理检索方面表现出色,无需进行压缩权衡,能够在标准基础设施上部署。
forwarder1121
轻量级语音压力识别模型,通过知识蒸馏技术训练,适用于边缘设备实时压力检测
mlx-community
这是一个基于Qwen3-30B-A3B模型的4位量化版本,通过从6位量化蒸馏至4位定制的DWQ量化技术制作,适用于文本生成任务。
saurabhati
DASS是一种基于状态空间架构的音频分类模型,通过知识蒸馏技术从更大的教师模型中学习,在显著减小模型参数量的同时实现了卓越的音频分类性能。
PumeTu
一个基于SigLIP架构的轻量级视觉语言模型,通过蒸馏技术从更大的SigLIP-400m模型中提取知识,适用于零样本图像分类任务。
silx-ai
Quasar-3.0-Max是SILX INC提供的7B参数蒸馏模型,展示了Quasar架构的早期潜力,采用创新的TTM训练流程和强化学习技术。
CrabInHoney
urlbert-tiny-base-v4是一款基于BERT架构的轻量级模型,专门针对URL(统一资源定位符)的分析任务进行了优化。该模型通过师生架构训练、掩码标记预测和知识蒸馏等技术,在保持较小参数规模(372万)的同时,增强了对URL结构和语义的理解能力,适用于需要快速、高效处理URL的分类与分析场景。
opensearch-project
专为OpenSearch设计的文档级学习型稀疏检索模型,采用蒸馏技术优化,支持高效文档检索
distil-whisper
Distil-Whisper是Whisper模型的蒸馏版本,通过大规模伪标签技术实现高效语音识别
YOYO-AI
ZYH-LLM-Qwen2.5-14B-V4是基于Qwen2.5-14B改进的大语言模型,通过多阶段模型合并和蒸馏技术提升了计算准确性和推理能力。
wikeeyang
DedistilledMixTuned Dev V3.0是基于Flux Dev微调模型的升级版本,在模型能力上达到了高度均衡。该模型在LoRA兼容性、真实感、出图质量以及艺术创作力方面表现优异,极为接近Flux Pro模型。通过分层融合技术去除反蒸馏干扰,与原版Flux.1 Dev模型完全兼容。
modularStarEncoder
ModularStarEncoder-300M 是基于 ModularStarEncoder-1B 预训练模型在 SynthCoNL 数据集上微调的编码器模型,专门用于代码到代码和文本到代码检索任务。该模型采用分层自蒸馏技术,允许用户根据计算能力选择不同大小的层版本。