谷歌发布Gemma4系列开源模型,实现AI能力轻量化突破。其中一款仅激活3.8亿参数,性能却超越参数规模20倍的大型模型,使强大AI可轻松部署于手机和轻薄笔记本。该系列包含2.3B和4.5B等不同参数规模的模型,推动人工智能服务更便捷普及。
谷歌推出轻量化视频生成模型Veo3.1Lite,通过架构优化大幅降低算力成本,旨在推动高质量视频生成普及。该模型对标市场轻量化产品,以高性价比和低至每秒0.05美元的720P视频生成成本,满足不同开发者需求。
苹果利用知识蒸馏技术,将谷歌Gemini云端大模型转化为适用于iPhone的轻量化端侧组件。根据2026年3月消息,苹果与谷歌达成协议,允许其工程师深度访问并研究Gemini全量模型。此举增强了苹果在AI领域的自主性,使其能直接借鉴Gemini的高质量输出与推理过程。
IBM推出Granite4.01B Speech语音模型,专为边缘计算和企业部署设计。该模型参数量减半,但性能显著提升,支持多语种自动语音识别和双向翻译,新增日语识别和关键词偏置功能,并大幅提高英文转录准确率。
SmolVLM2 是一个专注于视频内容分析和生成的轻量化语言模型。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$2
$20
$6
$24
Baidu
128
$8
$240
52
Bytedance
$1.2
$3.6
4
catalystsec
本项目对MiniMax-M2模型进行4位量化处理,使用DWQ(动态权重量化)方法,借助mlx-lm库达成。该模型是MiniMax-M2的轻量化版本,在保持较好性能的同时大幅减小模型体积。
kawaimasa
专为日语小说创作优化的轻量化大语言模型,基于Mistral架构,提供创意生成、正文续写等功能
DevQuasar
这是慧慧AI基于Qwen3-14B模型的量化版本,旨在通过模型压缩技术让大语言模型更加轻量化,降低硬件需求,使知识获取更加普及和便捷。
阿里巴巴PAI发布的轻量化版本Qwen2.5大语言模型,专注于高效文本生成任务
urchade
GLiNER是一个通用的命名实体识别模型,能够识别任何实体类型,为传统NER模型和大型语言模型提供了轻量化替代方案。
Aryanne
本项目基于mistralai/Mistral-7B-Instruct-v0.2模型进行精简处理,将中间层大小从14336缩减至3072,参数量从约70亿减少至约28.1亿,是一个轻量化的大语言模型。由于精简后生成内容为乱码,需要进行预训练恢复性能。
albert
ALBERT XLarge v1是基于英语语料预训练的大型语言模型,采用参数共享的轻量化Transformer架构,专注于掩码语言建模和句子顺序预测任务。