Meta计划2024年一季度发布新一代AI大模型“牛油果”,该模型在开发中借助阿里巴巴Qwen模型进行蒸馏学习以提升能力,并可能以闭源形式推出,严格控制访问权限。
微博推出开源大模型Vibe Thinker,仅15亿参数却在数学竞赛基准测试中击败6710亿参数的DeepSeek R1,准确率更高且训练成本仅7800美元。采用轻量化MoE架构与知识蒸馏技术,仅需5GB数学语料即可微调,支持Hugging Face下载和商用。该模型在AIME等国际数学竞赛中表现优异。
前OpenAI首席技术官Mira Murati领导的团队推出“在线策略蒸馏”技术,仅用80亿参数的小模型即可达到32B大模型70%的性能,训练成本降低90%,效率提升50-100倍,让中小企业和个人开发者能以低成本获得高性能模型。
Thinking Machine团队推出在线策略蒸馏训练法,让小模型在特定任务上训练效率提升50-100倍。该方法融合强化学习与监督学习,解决传统AI训练中强化学习低效、监督学习不灵活的难题,打造"AI教练"新模式。成果获OpenAI前CTO转发,引发业界高度关注。
NovaSky 是一个专注于代码生成和推理模型优化的人工智能技术平台。
DeepSeek-R1-Distill-Qwen-1.5B 是一款高效推理的开源语言模型,适用于多种自然语言处理任务。
DeepSeek-R1-Distill-Llama-8B 是一个高性能的开源语言模型,适用于文本生成和推理任务。
DeepSeek-R1-Distill-Qwen-14B 是一款高性能的文本生成模型,适用于多种推理和生成任务。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$2
$20
Baidu
128
$6
$24
drbaph
Z-Image(造相)是一个拥有60亿参数的高效图像生成基础模型,专门解决图像生成领域的效率和质量问题。其蒸馏版本Z-Image-Turbo仅需8次函数评估就能达到或超越领先竞品,在企业级H800 GPU上可实现亚秒级推理延迟,并能在16G VRAM的消费级设备上运行。
TeichAI
本模型是基于Qwen3-4B-Thinking-2507基础模型,使用高推理难度的Gemini 3 Pro预览数据集进行蒸馏训练得到的模型。它专注于提升在编码和科学领域的复杂推理能力,通过特定数据集的训练,旨在将大型模型(如Gemini 3 Pro)的推理能力高效地迁移到较小规模的模型中。
lightx2v
本仓库包含为HunyuanVideo-1.5优化的4步蒸馏模型,能够在不使用CFG(无分类器指导)的情况下实现超快速的4步推理,显著减少生成时间,同时保持高质量的视频输出。
jayn7
本项目提供腾讯混元视频1.5文本到视频模型的量化GGUF版本,支持480P视频生成任务,包含蒸馏模型和完整模型两个版本,可与ComfyUI-GGUF等工具配合使用。
腾讯混元视频1.5模型的量化GGUF版本,专门用于图像转视频和视频生成任务。提供480P分辨率的蒸馏模型和标准模型,支持多种量化精度,包括Q4_K_S、Q8_0和FP16等。
Nanbeige
楠米色4-3B-思维-2511是楠米色系列的最新增强版本,通过先进的蒸馏技术和强化学习优化,在紧凑的3B参数规模下实现了强大的推理能力。该模型在Arena-Hard-V2和BFCL-V4等基准测试中,在参数小于32B的模型中取得了最先进(SOTA)成果。
本模型是基于Qwen3-4B架构的知识蒸馏模型,通过约5440万个由Gemini 2.5 Flash生成的标记进行训练,旨在整合Gemini-2.5 Flash的行为、推理过程和知识到单一数据集中。
这是一个基于Qwen3 30B A3B模型,在Claude Sonnet 4.5高推理难度数据集上训练的蒸馏模型。该模型专门针对复杂推理任务进行优化,在编码和科学领域表现出色,具备较强的逻辑推理能力。
AbstractPhil
这是一个实验性的Stable Diffusion 1.5蒸馏模型,采用v-预测流匹配方法和几何引导的自适应块加权技术。目前处于研究阶段,训练正在进行中,结果尚未验证。
本项目提供了由LightX2V团队开发的万2.2蒸馏模型的量化GGUF版本,专门用于图像转视频和视频生成任务。该版本经过优化,可与ComfyUI-GGUF等工具配合使用,提供高效的推理性能。
基于LoRA的4步推理高性能视频生成模型,从Wan2.2蒸馏模型中提取的LoRA权重,具备灵活部署、存储高效和出色生成质量的特点
catalystsec
这是一个基于ByteDance Seed-OSS-36B-Instruct模型通过DWQ量化为4位的轻量化版本,使用mlx-lm 0.27.1从BF16教师模型中蒸馏而来,支持中英双语文本生成任务。
Jackrong
本项目通过创新的两阶段训练流程,将GPT的推理能力蒸馏到Llama-3.1-8B模型中。首先通过监督微调进行知识蒸馏和格式对齐,然后利用强化学习激励模型自主探索和优化推理策略,专注于数学推理领域的能力突破。
timm
这是一个基于DINOv3框架的视觉Transformer模型,通过知识蒸馏技术从DINOv3 ViT-7B模型在LVD-1689M数据集上训练得到。该模型专门用于图像特征编码,能够高效提取图像特征表示,适用于各种计算机视觉任务。
这是一个基于DINOv3架构的视觉Transformer模型,采用小型(Small)配置,在LVD-1689M数据集上通过知识蒸馏训练而成。该模型专门用于高效提取图像特征,支持图像分类、特征图提取和图像嵌入等多种计算机视觉任务。
这是一个基于DINOv3架构的Vision Transformer图像特征编码器,通过从7B参数的DINOv3 ViT模型在LVD-1689M数据集上进行知识蒸馏得到。该模型专门用于图像特征提取任务,具有强大的视觉表示能力。
facebook
MobileLLM-Pro是Meta推出的10亿参数高效设备端语言模型,专为移动设备优化,支持128k上下文长度,提供高质量推理能力。该模型通过知识蒸馏技术训练,在多项基准测试中超越同规模模型,并支持近乎无损的4位量化。
chaitnya26
Qwen-Image-Lightning是基于Qwen/Qwen-Image的文本到图像生成模型,通过蒸馏和LoRA技术实现快速高质量的图像生成,支持使用diffusers库便捷调用。
echos-keeper
这是一个经过蒸馏的小型语言模型,基于GPT架构,从20B参数模型蒸馏到1.7B参数,并转换为GGUF格式以便在llama.cpp中使用。模型具有高效的推理性能和较小的资源需求。
MongoDB
mdbr-leaf-ir 是 MongoDB Research 开发的专为信息检索任务设计的高性能紧凑型文本嵌入模型,特别适用于 RAG 管道的检索阶段。该模型采用知识蒸馏技术,支持非对称架构、MRL 截断和向量量化,在 BEIR 基准测试中表现出色。