微软发布开源多模态大模型Phi-4-reasoning-vision-15B,具备150亿参数。其核心突破是能自主判断任务难度,智能选择快速响应或深度推理,这在轻量级开源模型中罕见。该模型专攻图像描述、界面元素定位和复杂数学推理等高难度任务。
谷歌发布Gemini 3.1 Flash-Lite,作为系列中最快、最具成本效益的轻量级模型,旨在为开发者提供高性价比的实时AI交互体验。性能方面,其首字响应速度较前代提升2.5倍,显著优化了响应效率。
阿里通义千问团队推出Qwen3.5小型模型系列,包括0.8B、2B、4B、9B四款轻量级模型及对应基础版本。它们基于统一架构,具备原生多模态能力(支持图像-文本处理),结构改进且强化学习训练可扩展,能以更少计算资源实现更高智能水平。其中0.8B和2B模型极致小巧、推理极快,专为边缘设备优化。
阿里通义实验室推出Qwen3.5系列小尺寸模型,包括0.8B、2B、4B和9B四种参数规模。这些模型基于统一基座研发,主打轻量级和高适应性,旨在降低AI应用门槛,实现从端侧设备到垂直场景的低成本高效落地。
一款轻量级的多模态语言模型安卓应用。
Gemma 3 是基于 Gemini 2.0 技术的轻量级、高性能开源模型,专为单 GPU 或 TPU 设备设计。
Phi-4-mini-instruct 是一款轻量级的开源语言模型,专注于高质量推理密集型数据。
Phi-4-multimodal-instruct 是微软开发的轻量级多模态基础模型,支持文本、图像和音频输入。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$2
$20
$6
$24
Baidu
128
ss-lab
这是一个基于Meta LLaMA 3 8B模型,使用Unsloth框架进行高效微调,并转换为GGUF格式的轻量级文本生成模型。模型针对Alpaca数据集进行了优化,适用于本地部署和推理,特别适合在资源受限的环境中使用。
MuXodious
Gemma 3n E4B IT 是谷歌推出的轻量级多模态开放模型,基于与Gemini模型相同的研究构建。该模型支持文本、音频和视觉输入,适用于多种任务,采用MatFormer架构实现高效参数利用。
ExaltedSlayer
Gemma 3是谷歌推出的轻量级开源多模态模型,本版本为12B参数的指令调优量化感知训练模型,已转换为MLX框架的MXFP4格式,支持文本和图像输入并生成文本输出,具有128K上下文窗口和140+语言支持。
RiosWesley
巴西范围路由模型是一个基于Gemma 3 270M的微调微型大语言模型,专为巴西外卖服务系统设计,可作为极快速且轻量级的意图分类器(路由)。该模型使用Unsloth进行训练并转换为GGUF格式。
tencent
混元视频-1.5是一款轻量级高性能视频生成模型,仅用83亿参数就能提供顶级的视频质量,显著降低了使用门槛。它能在消费级GPU上流畅运行,支持文本到视频和图像到视频生成,让每个开发者和创作者都能轻松使用。
混元OCR是由混元原生多模态架构驱动的端到端OCR专家VLM模型,仅用10亿参数的轻量级设计,在多个行业基准测试中取得最先进成绩。该模型擅长处理复杂的多语言文档解析,在文本定位、开放域信息提取、视频字幕提取和图片翻译等实际应用场景中表现出色。
ZygAI
ZygAI 是一款专为立陶宛语和英语任务设计的快速本地大语言模型,处于测试阶段。它作为轻量级的双语助手,能够在本地硬件上实时运行,为用户提供高效、准确的双语服务。
hetbhagatji09
这是一个基于MiniLM架构的轻量级句子嵌入模型,专门用于生成高质量的句子向量表示。模型采用MultipleNegativesRankingLoss进行训练,在句子相似度计算和特征提取任务上表现出色。
SadraCoding
SDXL-Deepfake-Detector 是一款精准检测 AI 生成人脸的工具,专注于维护数字世界的真实性,为抵御视觉虚假信息提供隐私保护且开源的解决方案。该模型通过微调预训练模型实现轻量级且高准确率的检测。
mradermacher
Lamapi/next-12b 是一个120亿参数的多语言大语言模型,提供了多种量化版本,支持文本生成、问答、聊天等多种自然语言处理任务。该模型在多个领域数据集上训练,具有高效、轻量级的特点。
Gemma 3 27B IT QAT的MLX MXFP4量化版本,是由Google开发的轻量级开源多模态模型。该模型能够同时处理文本和图像输入并生成文本输出,拥有128K大上下文窗口,支持超过140种语言,适用于多种文本生成和图像理解任务。
unsloth
Granite-4.0-H-350M-Base是IBM开发的轻量级仅解码器语言模型,专为资源受限设备设计,支持多语言文本生成和代码补全功能。
Granite-4.0-H-350M是IBM开发的轻量级指令模型,具有350M参数,在多语言处理和指令遵循方面表现出色,专为设备端部署和研究场景设计。
gravitee-io
这是一个专门用于压缩短用户提示(≤64个标记)的序列到序列模型,在现代GPU上可实现亚100毫秒的低延迟运行,作为轻量级预处理阶段为高容量大语言模型提供支持。
onnx-community
Granite-4.0-1B是IBM开发的轻量级指令模型,基于Granite-4.0-1B-Base微调而成。该模型结合了开源指令数据集和内部合成数据集,采用监督微调、强化学习和模型合并等技术开发,适合设备端部署和研究用例。
Granite-4.0-350M是IBM开发的轻量级指令模型,基于Granite-4.0-350M-Base微调而成。该模型结合了开源指令数据集和内部合成数据集,采用监督微调、强化学习和模型融合等技术开发,具备强大的指令跟随能力,特别适合设备端部署和研究场景。
Jesteban247
brats_medgemma_light是基于unsloth/medgemma-4b-it的融合模型,在BraTS和TextBraTS数据集上微调,专门用于脑部MRI解读和放射学文本生成的轻量级视觉语言模型。
nanochat-d32是一个轻量级聊天模型,专门针对ONNX运行时进行了优化,提供了高效的文本生成能力。该模型基于karpathy的nanochat-d32模型转换而来,支持在JavaScript环境中运行。
shorecode
这是一个基于Google T5 Efficient Tiny架构的轻量级文本摘要生成模型,使用shorecode/summary-collection-200k-rows数据集训练,专门用于自动文本摘要任务,具有高效推理和资源占用低的特点。
quwsarohi
NanoAgent是一个紧凑的智能大语言模型,拥有1.35亿参数和8k上下文长度。它专门针对工具调用和指令遵循进行了优化,能够在个人设备上高效运行,支持轻量级推理和ReAct风格的交互。
K8M是一款AI驱动的轻量级Kubernetes控制台工具,集成大模型能力,支持多集群管理和MCP服务。
轻量级多模型LLM统一接口服务
这是一个基于Cloudflare Workers的轻量级模型控制协议(MCP)服务器,用于让代理(如Cursor代理)与WorkOS API交互。项目提供自动化部署和工具扩展功能。
一个基于Cloudflare Workers的轻量级模型控制协议(MCP)服务器,用于AI代理与Vercel API交互
MCP Server Notifier 是一个轻量级通知服务,与模型上下文协议(MCP)集成,可在AI代理完成任务时发送Webhook通知。支持多种Webhook提供商(如Discord、Slack、Teams等),提供图像支持、多项目管理、自定义消息等功能,易于与AI工具(如Cursor)集成。
Patchright Lite MCP Server是一个轻量级的浏览器自动化服务,基于Patchright Node.js SDK构建,通过Model Context Protocol为AI模型提供隐身的网页浏览和交互能力。
Axone的MCP服务器是一个轻量级实现,通过标准化的模型上下文协议(MCP)暴露Axone的能力,作为AI工具访问数据宇宙的网关。
MCPollinations是一个基于Model Context Protocol(MCP)的多模态AI服务,支持通过Pollinations API生成图像、文本和音频。它提供无需认证的轻量级服务,兼容多种AI模型,并支持图像保存和Base64编码返回。
一个轻量级的模型控制协议(MCP)服务器,用于通过Cursor等代理工具与Neon REST API交互,部署在Cloudflare Workers上。
HydraMCP是一个轻量级、可扩展的网络安全工具包,通过模型上下文协议(MCP)将AI助手与安全工具连接,支持AI辅助的安全研究、扫描和分析。
Cloudera AI Agent Studio MCP Server是一个轻量级的模型上下文协议桥接服务,可将Agent Studio实例暴露为一组可调用的工具,支持动态创建和管理工作流。
一个基于MCP协议的代码分析服务器,通过自然语言对话帮助AI模型理解和分析代码库,提供轻量级的代码探索与理解功能。
OtterBridge是一个轻量级的MCP服务器,用于连接应用程序与多种大型语言模型提供商,支持Ollama等模型,设计简洁灵活。
MCP Crew AI Server是一个基于Python的轻量级服务器,用于运行和管理CrewAI工作流,支持通过MCP协议与大型语言模型通信。
MCP Bridge是一个轻量级、与LLM无关的RESTful代理,用于连接多个模型上下文协议(MCP)服务器,并通过统一的REST API暴露其功能。它解决了边缘设备、移动设备和Web浏览器等平台无法高效运行MCP服务器的问题,提供了可选的基于风险的执行级别,包括标准执行、确认工作流和Docker隔离等安全控制。
Wrike MCP服务器是一个轻量级实现,用于连接Wrike项目管理平台与语言学习模型(LLM),提供API接口实现任务查询、评论添加和任务创建等功能。
MCP GitHub Reader是一个轻量级的MCP服务器,用于将GitHub仓库内容整合到大型语言模型的上下文中,提供仓库分析、文件访问、智能过滤和搜索功能。
一个基于Cloudflare Workers的轻量级模型控制协议(MCP)服务器,用于通过API与Cloudflare服务交互。
Memgraph MCP Server是一个轻量级的Model Context Protocol(MCP)服务器实现,旨在连接Memgraph图数据库与大型语言模型(LLM),提供Cypher查询执行和模式信息获取功能。
一个包含天气服务和金融分析模块的轻量级程序集,通过标准化模型上下文协议提供特定功能。