YuanLab.ai发布开源多模态大模型Yuan3.0Flash,参数规模达40B,采用稀疏混合专家架构,推理时仅激活约3.7B参数,显著提升效率。模型提供16bit与4bit权重、技术报告及训练方法,支持二次开发和行业定制,推动AI技术普及。
SuperCLUE-VLM最新榜单显示,谷歌Gemini-3-Pro以83.64分大幅领先,在视觉理解与推理方面优势明显。国产模型表现突出,商汤SenseNova V6.5Pro和字节豆包分列第二、三位,展现中国AI在多模态领域的快速进步。评测涵盖三大核心能力维度。
SuperCLUE-VLM多模态测评显示,谷歌Gemini-3-pro以83.64分夺冠,在基础认知、视觉推理和应用三大维度全面领先。国产模型表现亦受关注。
阿里巴巴通义实验室发布MAI-UI多模态GUI智能代理家族,整合人机交互、工具使用与云端协作,在通用及移动GUI导航方面表现领先,超越多个同行模型。该系统基于Qwen3VL构建,提供多种规模模型,支持自然语言指令处理。
让复杂,变简单
消除幻觉,多模态RAG不忘信息,智能编排前沿模型,任务表现卓越
Google DeepMind旗舰多模态AI,1M上下文,具备博士级推理与高级编码能力
最强大的代理和编码模型,具备最佳的多模态理解能力。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
-
Anthropic
$105
$525
200
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$2
$20
$6
$24
Baidu
128
$8
$240
52
TomoroAI
TomoroAI/tomoro-colqwen3-embed-4b是一款先进的ColPali风格多模态嵌入模型,能够将文本查询、视觉文档(如图像、PDF)或短视频映射为对齐的多向量嵌入。该模型结合了Qwen3-VL-4B-Instruct和Qwen3-Embedding-4B的优势,在ViDoRe基准测试中表现出色,同时显著减少了嵌入占用空间。
Gjm1234
Wan2.2是基础视频模型的重大升级版本,专注于将有效MoE架构、高效训练策略和多模态融合等创新技术融入视频扩散模型,为视频生成领域带来更强大、更高效的解决方案。
John1604
Qwen3 VL 4B Thinking 是一个支持图像到文本以及文本到文本转换的多模态模型,具有4B参数规模,能够满足多种图文交互需求。
MuXodious
Gemma 3n E4B IT 是谷歌推出的轻量级多模态开放模型,基于与Gemini模型相同的研究构建。该模型支持文本、音频和视觉输入,适用于多种任务,采用MatFormer架构实现高效参数利用。
pramjana
Qwen3-VL-4B-Instruct是阿里巴巴推出的40亿参数视觉语言模型,基于Qwen3架构开发,支持多模态理解和对话任务。该模型具备强大的图像理解和文本生成能力,能够处理复杂的视觉语言交互场景。
ExaltedSlayer
Gemma 3是谷歌推出的轻量级开源多模态模型,本版本为12B参数的指令调优量化感知训练模型,已转换为MLX框架的MXFP4格式,支持文本和图像输入并生成文本输出,具有128K上下文窗口和140+语言支持。
OpenMMReasoner
OpenMMReasoner是一个完全透明的两阶段多模态推理方案,采用监督微调(SFT)和强化学习(RL)训练。在SFT阶段构建了874K样本的冷启动数据集,RL阶段利用74K样本进一步提升能力,在多模态推理基准测试中表现出色。
OpenMMReasoner是一个完全透明的两阶段多模态推理方案,涵盖有监督微调(SFT)和强化学习(RL)。该方案通过精心构建高质量数据集,在多个多模态推理基准测试中超越了强大的基线模型,为未来大规模多模态推理研究奠定了坚实的实证基础。
sbintuitions
Sarashina2.2-Vision-3B是由SB Intuitions训练的日本大型视觉语言模型,基于Sarashina2.2-3B-Instruct和SigLIP图像编码器构建,具备强大的图像到文本转换能力,支持日语和英语的多模态处理。
tencent
混元OCR是由混元原生多模态架构驱动的端到端OCR专家VLM模型,仅用10亿参数的轻量级设计,在多个行业基准测试中取得最先进成绩。该模型擅长处理复杂的多语言文档解析,在文本定位、开放域信息提取、视频字幕提取和图片翻译等实际应用场景中表现出色。
sensenova
SenseNova-SI是基于多模态基础模型构建的空间智能增强模型系列,通过精心策划的800万样本数据训练,在多个空间智能基准测试中取得了优异表现,同时保持了强大的通用多模态理解能力。
cyankiwi
ERNIE-4.5-VL-28B-A3B-Thinking AWQ - INT8是基于百度ERNIE-4.5架构的多模态大语言模型,通过AWQ量化技术实现8位精度,在保持高性能的同时大幅降低内存需求。该模型在视觉推理、STEM问题解决、图像分析等方面表现出色,具备强大的多模态理解和推理能力。
SenseNova-SI是基于成熟多模态基础模型构建的空间智能增强模型系列,通过精心策划的800万数据样本训练,在多个空间智能基准测试中展现出卓越性能,同时保持强大的通用多模态理解能力。
NyxKrage
Moondream 3 Preview HF是基于HuggingFace Transformers架构规范对Moondream 3 (Preview)模型的重新实现,使其能够与Hugging Face生态系统完全兼容。这是一个多模态视觉语言模型,采用专家混合(MoE)文本主干,约90亿参数,20亿活跃参数。
HIT-TMG
Uni-MoE 2.0-Omni 是荔枝科技(Lychee)推出的完全开源全模态模型,采用全模态 3D RoPE 和动态容量专家混合架构,显著提升了以语言为中心的多模态理解、推理和生成能力。该版本集成了全模态理解以及音频和图像生成能力。
DavidAU
这是一个增强版的多模态视觉语言模型,基于Qwen3-VL-8B-Thinking模型,通过Brainstorm 20x技术扩展至12B参数,采用NEO Imatrix增强的GGUF量化。模型具备强大的图像理解、文本生成和多模态推理能力,在视觉感知、文本质量和创意场景方面都有显著提升。
AbstractPhil
MM-VAE Lyra是一个专门用于文本嵌入转换的多模态变分自编码器,采用几何融合技术。它结合了CLIP-L和T5-base模型,能够有效处理文本嵌入的编码和解码任务,为多模态数据处理提供创新解决方案。
cemoss17
nutrient-gram-qwen-3-vl-2b是基于Qwen/Qwen3-VL-2B-Instruct的微调版本,使用TRL进行监督微调训练,主要用于文本生成任务。该模型在保持原有多模态能力的基础上,针对特定任务进行了优化。
SenseNova-SI是基于多模态基础模型构建的空间智能模型系列,专门针对空间理解能力进行优化。通过大规模空间智能数据训练,在度量估计、空间关系理解、视点变化处理等方面表现优异。
ggml-org
这是一个基于Qwen3-VL-30B-A3B-Instruct模型转换的GGUF格式版本,专门为llama.cpp优化。该模型是一个300亿参数的多模态视觉语言模型,支持图像理解和文本生成任务。
AI Studio MCP Server是一个集成Google AI Studio/Gemini API的模型上下文协议服务器,提供支持文件、对话历史和系统提示的内容生成功能。
MCPollinations是一个基于Model Context Protocol(MCP)的多模态AI服务,支持通过Pollinations API生成图像、文本和音频。它提供无需认证的轻量级服务,兼容多种AI模型,并支持图像保存和Base64编码返回。
Pixeltable的多模态模型上下文协议服务器集合,提供音频、视频、图像和文档的索引与查询功能
联网搜索MCP是基于腾讯云联网搜索API封装的服务,提供毫秒级响应、分钟级更新的智能搜索能力,支持自然结果检索、多模态VR卡等多种功能,帮助开发者快速集成互联网搜索能力。
一个提供图像识别功能的MCP服务器,支持Anthropic和OpenAI的视觉API,具备图像描述、多格式支持、可配置主备服务商及OCR文本提取功能。
一个基于Google Gemini和Vertex AI的AI视觉分析MCP服务器,支持图像和视频的多模态分析,提供对象检测、图像比较等功能,可集成到多种MCP客户端中。
MCP服务工具集合,提供Hugging Face和Dify的AI服务API调用功能,支持多种NLP、CV和语音处理任务。
Context Engineering MCP平台是一个AI上下文管理与优化平台,通过系统化的方法设计、管理和优化AI模型的输入信息,实现提示工程的工程化。平台提供智能分析引擎、优化算法、模板管理等功能,显著提升AI响应质量、降低API成本,并支持多模态内容处理。
一个基于Pollinations API的多模态MCP服务器,支持生成图像、文本和音频内容
一个基于Google Gemini AI的MCP服务器,提供图像、音频和视频识别功能,支持多种传输方式和客户端集成。
Ollama MCP Server是一个连接Ollama本地大语言模型和模型上下文协议(MCP)的桥梁工具,提供完整的API集成、模型管理和执行功能,支持OpenAI兼容的聊天接口和视觉多模态模型。
Frame0 MCP Server是一个为Frame0线框图工具提供的多模态控制协议服务,支持通过自然语言指令创建和修改线框图。
Morphik MCP是一个多模态数据库交互协议服务器,支持文档管理、检索和文件系统操作
博查是一个专为AI设计的搜索引擎,提供高质量的世界知识检索服务。
MCP门户是Model Context Protocol的官方社区平台,提供文档、实践指南、服务器实现、工具集成等资源,支持AI模型通过MCP协议访问外部工具,涵盖从数据库连接到多模态应用等丰富场景。
博查是一个专为AI设计的搜索引擎,提供全网近百亿网页和生态内容的高质量搜索服务,支持天气、新闻、百科等多种垂直领域结构化数据,适用于各类AI应用。
一个集成RunwayML和Luma AI API的多功能MCP服务器,支持视频/图像生成及处理任务
OpenRouter MCP多模态服务器是一个通过OpenRouter.ai提供文本聊天和图像分析功能的协议服务器,支持多种模型选择和性能优化。
基于Google Gemini多模态API的增强版网页控制台,新增工具调用功能
基于大模型的智能对话机器人项目,支持多平台接入和多种AI模型,具备文本、语音、图像处理及插件扩展能力,可定制企业AI应用。