全球AI领域正经历“AI母语”技术变革。针对当前大模型“语言中心、外挂视觉或语音”的拼凑架构,团队发布并开源了原生多模态大模型LongCat-Next及离散分词器,旨在打破模态壁垒,让AI像处理文字一样理解物理世界。核心是通过重构底层架构实现突破。
谷歌发布全新多模态模型Gemma4 12B,颠覆传统架构,取消独立编码器组件,实现消费级硬件上的高效本地部署与推理。这一突破显著降低多模态模型的计算复杂度,提升运行速度,标志着开源大模型生态进入新阶段。
Google发布全新开源大模型Gemma412B,采用“Unified”无编码器架构,突破端侧全模态AI。该模型无需传统视觉、音频外部编码器,直接输入文字、图像、音频、视频四种模态数据至同一Transformer主干网络处理,消除了外挂“翻译”模块带来的显存占用和高延迟问题。
百度发布文心大模型衍生模型PaddleOCR-VL-1.6,在OmniDocBench v1.6评测中以96.33%准确率超越Gemini-3-Pro、GPT-5.2等主流模型,刷新SOTA,综合性能全球第一。该模型标志着多模态大模型在复杂文档理解与真实场景解析上的重大突破,支持超100种语言识别,用户覆盖广泛。
全球首个全模态推理平台,统一API接入300+模型,OpenAI兼容
全新多模态推理模型,支持图文输入、文字输出,具备高精度图像感知与复杂推理能力。
R1-Omni 是一个结合强化学习的全模态情绪识别模型,专注于提升多模态情绪识别的可解释性。
一款支持多模态功能的全功能大语言模型安卓应用。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
-
Anthropic
$105
$525
200
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$2
$20
$6
$24
Baidu
128
$8
$240
52
HIT-TMG
Uni-MoE 2.0-Omni 是荔枝科技(Lychee)推出的完全开源全模态模型,采用全模态 3D RoPE 和动态容量专家混合架构,显著提升了以语言为中心的多模态理解、推理和生成能力。该版本集成了全模态理解以及音频和图像生成能力。
Qwen
Qwen3-VL-8B-Thinking是通义千问系列中最强大的视觉语言模型,具备增强推理能力的8B参数版本。该模型在文本理解、视觉感知、空间理解、长上下文处理等方面全面升级,支持多模态推理和智能体交互。
Qwen3-VL-4B-Instruct是通义系列最强大的视觉语言模型之一,在文本理解、视觉感知、空间理解、视频处理等方面全面升级,支持在多种硬件设备上运行,具备卓越的多模态推理能力。
unsloth
Qwen3-VL是迄今为止Qwen系列中最强大的视觉语言模型,在文本理解与生成、视觉感知与推理、上下文长度、空间和视频动态理解以及智能体交互能力等方面都进行了全面升级。该模型采用混合专家(MoE)架构,提供卓越的多模态处理能力。
Qwen3-VL是通义系列最强大的视觉语言模型,在文本理解与生成、视觉感知与推理、上下文长度、空间和视频理解能力等方面全面升级,具备卓越的多模态交互能力。
cpatonn
Qwen3-VL是通义大模型系列最强大的视觉语言模型,在文本理解、视觉感知、空间理解、视频处理等方面全面升级,提供卓越的多模态能力。
inclusionAI
Ming-flash-omni 预览版是基于 Ling-Flash-2.0 稀疏专家混合(MoE)架构构建的多模态大模型,总参数达100B,每个token仅激活6B参数。该模型在Ming-Omni基础上进行了全面升级,在多模态理解和生成方面有显著提升,特别是在语音识别、图像生成和分割编辑方面表现突出。
Open-Bee
Bee-8B是一个先进的全开源多模态大语言模型,专注于数据质量,旨在缩小与专有模型的性能差距。通过使用高质量的Honey-Data-15M语料库和先进的数据处理管道HoneyPipe,在复杂推理等方面展现了卓越性能。
nvidia
OmniVinci是NVIDIA开发的全模态理解大语言模型,具备视觉、文本、音频处理和语音交互能力,支持多模态推理和理解。
NexaAI
OmniNeural是全球首个专门为神经处理单元(NPU)设计的全多模态模型,能够原生理解文本、图像和音频,可在PC、移动设备、汽车、物联网和机器人等多种设备上运行。
wcy1122
MGM-Omni-7B是一款全模态聊天机器人,能够处理文本、图像、视频和语音输入,并生成文本和语音响应。它具备长语音理解和生成能力,还支持中英文的零样本语音克隆。
UCSC-VLAA
OpenVision是一个全开放、高性价比的先进视觉编码器家族,专注于多模态学习。
OpenVision 是一个全开放、高性价比的先进视觉编码器家族,专为多模态学习设计。
OpenVision 是一个全开放、高性价比的先进视觉编码器家族,专注于多模态学习。
OpenVision是一个全开放、高性价比的先进视觉编码器家族,专注于多模态学习任务。
OpenVision-ViT-Tiny 是一个全开放、高性价比的先进视觉编码器,属于 OpenVision 家族的一部分,专注于多模态学习。
Pixelle MCP是一个基于MCP协议的全模态AIGC解决方案,可将ComfyUI工作流零代码转换为MCP工具,实现LLM与ComfyUI的无缝集成。
一个高性能的MCP服务器,为LLM代理提供持久化的多模态上下文存储,支持线程隔离、元数据过滤、全文搜索和语义搜索,兼容SQLite和PostgreSQL后端。
ChainFETCH MCP服务器提供对以太坊区块链智能平台的API访问,集成AI语义搜索、实时区块流和多模态查询功能,支持地址、交易、区块、代币和智能合约的全面分析。
RAG Anything MCP Server是一个提供全面检索增强生成(RAG)能力的模型上下文协议服务器,支持多模态文档处理与查询,具备端到端文档解析、批量处理、高级查询及持久化存储等功能。