英伟达发布OmniVinci全模态理解模型,在多项基准测试中领先顶尖模型19.05分。该模型仅用0.2万亿训练Token,数据效率达竞争对手六倍,旨在实现视觉、音频和文本的统一理解,推动机器多模态认知能力发展。
英伟达发布全模态理解模型OmniVinci,在基准测试中比顶尖模型高出19.05分,仅用1/6训练数据就实现卓越性能。该模型旨在让AI系统同时理解视觉、音频和文本,模拟人类多感官感知世界。
高通发布AI200和AI250芯片挑战英伟达,股价涨超20%。AI200专为AI推理设计,支持768GB内存,旨在降低总成本并提升性能,适用于大型语言和多模态模型推理。
巨量引擎推出自研AI广告治理大模型,通过"全链路治理"框架和"以AI治AI"策略应对AI生成内容引发的虚假宣传等风险。该多模态模型显著提升审核效率,90%广告素材可在10分钟内完成智能审核,大幅超越人工处理速度。
统一的多模态AI,支持基于指令的图像编辑与生成,超越商业模型。
Grok 4是xAI推出的革命性AI模型,具备先进的推理能力、多模态功能和专业编码特性。
一个强大的统一多模态模型,支持文本到图像生成及图像编辑。
BAGEL是一款开源的统一多模态模型,您可以在任何地方进行微调、精简和部署。
xai
$21.6
输入tokens/百万
$108
输出tokens/百万
256k
上下文长度
google
$9
$72
1M
openai
$7.92
$31.68
200k
$2.16
$18
baidu
$4
$16
128k
meta
$1.22
$4.32
tencent
32k
$0.72
$2.88
reka-ai
-
anthropic
$540
$3
8k
2M
sensetime
$2.8
$8.4
$0.58
10M
LiquidAI
LFM2-VL-3B是Liquid AI开发的多模态视觉语言模型,基于LFM2骨干架构构建,具备强大的视觉理解和推理能力,特别在细粒度感知任务上表现出色。该模型能够高效处理文本和图像输入,支持高达512×512分辨率的原生图像处理。
Pacific-Prime
INL架构是一种基于积分神经元动力学的生产级神经架构,用迭代动力学取代传统前馈网络层,适用于大语言模型、视觉变换器、多模态模型等多种类型。
Qwen
Qwen3-VL是通义系列最强大的视觉语言模型,在文本理解与生成、视觉感知与推理、上下文长度、空间和视频理解能力等方面全面升级,具备卓越的多模态交互能力。
rafacost
DreamOmni2-GGUF是将xiabs/DreamOmni2-7.6B模型转换为GGUF格式的图像到图像模型,支持多模态指令编辑和生成,遵循Apache-2.0许可证。
ticoAg
Qwen3-VL-30B-A3B-Instruct-AWQ是Qwen3-VL系列的量化版本,具备强大的视觉语言处理能力,支持图像理解、视频分析、多模态推理等任务。该模型在文本理解、视觉感知、空间理解、长上下文处理等方面均有显著提升。
cpatonn
Qwen3-VL是通义大模型系列最强大的视觉语言模型,在文本理解、视觉感知、空间理解、视频处理等方面全面升级,提供卓越的多模态能力。
mlx-community
这是Qwen3-VL-4B-Instruct模型的MLX格式8位量化版本,由mlx-community转换。该模型是一个40亿参数的多模态视觉语言模型,支持图像理解和文本生成任务,专为指令跟随场景优化。
lmstudio-community
Qwen3-VL-8B-Instruct是由Qwen开发的视觉语言模型,经过MLX量化优化,专门针对Apple Silicon设备。该模型支持图像和文本的多模态输入,能够理解和生成与图像相关的文本内容。
这是一个基于Qwen3-VL-30B-A3B-Thinking模型转换的MLX格式视觉语言模型,支持图像理解和多模态对话,采用bf16精度优化。
NexaAI
Qwen3-VL-8B-Thinking是阿里云Qwen团队开发的80亿参数多模态大语言模型,专为深度多模态推理设计,支持视觉理解、长上下文处理和结构化思维链生成,在复杂推理任务中表现出色。
Akicou
Qwen3-Omni-30B-A3B-Thinking模型的Q4_K_S量化GGUF版本,支持文本、视觉和音频多模态处理,通过llama.cpp实现高效推理。该版本在保证质量的前提下显著减小文件大小,提升推理速度。
Open-Bee
Bee-8B是一个先进的全开源多模态大语言模型,专注于数据质量,旨在缩小与专有模型的性能差距。通过使用高质量的Honey-Data-15M语料库和先进的数据处理管道HoneyPipe,在复杂推理等方面展现了卓越性能。
这是Qwen3-VL-30B-A3B-Instruct模型的4位量化MLX格式版本,由mlx-community转换和维护。该模型是一个300亿参数的多模态视觉语言模型,支持图像理解和文本生成任务。
onnx-community
Granite Docling 258M是一个基于ONNX格式的图像文本转文本模型,专门用于文档理解和处理。该模型能够将图像中的文档内容转换为结构化的文本格式,支持多模态输入处理。
Apriel-1.5-15b-Thinker是ServiceNow开发的150亿参数多模态推理模型,具备文本和图像推理能力,性能可媲美比它大10倍的模型,在人工分析指数上获得52分,在企业领域基准测试中表现优异。
unsloth
Apriel-1.5-15b-Thinker是ServiceNow Apriel SLM系列中的多模态推理模型,具有150亿参数,能够在文本和图像推理任务上与规模大10倍的模型竞争。该模型通过中期训练方案实现了卓越的推理能力,无需图像SFT训练或强化学习即可达到SOTA性能。
PaDT-MLLM
PaDT Pro 3B是基于Qwen2.5VL-3B的多模态大语言模型,采用可解码块令牌的统一范式,能够直接生成文本和视觉输出,在多个视觉感知和理解任务中取得先进性能。
inclusionAI
Ming-UniVision是一个多模态大语言模型,首次将连续视觉表征集成到下一令牌预测框架中,在单一自回归范式下统一了视觉和语言,无需离散量化或特定模态的头部。该模型支持联合图像理解与生成,在视觉语言训练中收敛速度更快,还支持多轮上下文视觉任务。
这是一个基于Huihui-GLM-4.5V-abliterated模型转换而来的视觉语言模型,采用MXFP4量化格式,专门针对Apple MLX框架优化,支持图像理解和多模态对话任务。
numind
NuExtract 2.0是由NuMind开发的专门用于结构化信息提取的多模态模型,支持文本和图像输入,具备多语言处理能力,能够根据JSON模板从输入内容中提取结构化信息。
MCPollinations是一个基于Model Context Protocol(MCP)的多模态AI服务,支持通过Pollinations API生成图像、文本和音频。它提供无需认证的轻量级服务,兼容多种AI模型,并支持图像保存和Base64编码返回。
Pixeltable的多模态模型上下文协议服务器集合,提供音频、视频、图像和文档的索引与查询功能
Context Engineering MCP平台是一个AI上下文管理与优化平台,通过系统化的方法设计、管理和优化AI模型的输入信息,实现提示工程的工程化。平台提供智能分析引擎、优化算法、模板管理等功能,显著提升AI响应质量、降低API成本,并支持多模态内容处理。
Ollama MCP Server是一个连接Ollama本地大语言模型和模型上下文协议(MCP)的桥梁工具,提供完整的API集成、模型管理和执行功能,支持OpenAI兼容的聊天接口和视觉多模态模型。
MCP门户是Model Context Protocol的官方社区平台,提供文档、实践指南、服务器实现、工具集成等资源,支持AI模型通过MCP协议访问外部工具,涵盖从数据库连接到多模态应用等丰富场景。
OpenRouter MCP多模态服务器是一个通过OpenRouter.ai提供文本聊天和图像分析功能的协议服务器,支持多种模型选择和性能优化。
该项目为Pixeltable的多模态模型上下文协议服务器集合,提供音频、视频、图像和文档的索引与查询服务,支持Docker本地部署。
ToolChat是一个通过MCP服务器与大型语言模型(LLM)交互的工具,支持配置多工具服务器并调用特定功能,还能处理多模态输入如图片和文档。
RAG Anything MCP Server是一个提供全面检索增强生成(RAG)能力的模型上下文协议服务器,支持多模态文档处理与查询,具备端到端文档解析、批量处理、高级查询及持久化存储等功能。