阿里发布千问新一代全模态大模型Qwen3.5-Omni,实现图片、视频、语音及文字的无缝全模态交互,在215项任务中表现优异,标志着国产大模型在视听交互领域达到全球顶尖水平。
通义实验室发布多模态大模型Qwen3.5-Omni,实现理解力、交互感和任务执行力的跨越式进化,推动AI从“屏幕助手”迈向“理解物理世界的智能体”。该模型采用原生“全模态”架构,能无缝处理文本、图像、音频和视频输入,在音视频分析、推理、对话及翻译测试中表现卓越。
谷歌在全球推出“Search Live”功能,用户可通过手机摄像头和语音与AI实时交互,实现多模态搜索。该功能由Gemini 3.1 Flash Live模型驱动,提升了对话的自然度和响应速度。
奔驰与清华、智谱AI合作,将多模态大模型应用于新一代迈巴赫S级后排娱乐系统,成为全球首个在后排引入该技术的汽车品牌,重新定义豪华出行交互体验。
全球首个全模态推理平台,统一API接入300+模型,OpenAI兼容
全新多模态推理模型,支持图文输入、文字输出,具备高精度图像感知与复杂推理能力。
R1-Omni 是一个结合强化学习的全模态情绪识别模型,专注于提升多模态情绪识别的可解释性。
一款支持多模态功能的全功能大语言模型安卓应用。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
-
Anthropic
$105
$525
200
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$6
$24
$2
$20
Baidu
128
$8
$240
52
HIT-TMG
Uni-MoE 2.0-Omni 是荔枝科技(Lychee)推出的完全开源全模态模型,采用全模态 3D RoPE 和动态容量专家混合架构,显著提升了以语言为中心的多模态理解、推理和生成能力。该版本集成了全模态理解以及音频和图像生成能力。
Qwen
Qwen3-VL-8B-Thinking是通义千问系列中最强大的视觉语言模型,具备增强推理能力的8B参数版本。该模型在文本理解、视觉感知、空间理解、长上下文处理等方面全面升级,支持多模态推理和智能体交互。
Qwen3-VL-4B-Instruct是通义系列最强大的视觉语言模型之一,在文本理解、视觉感知、空间理解、视频处理等方面全面升级,支持在多种硬件设备上运行,具备卓越的多模态推理能力。
unsloth
Qwen3-VL是迄今为止Qwen系列中最强大的视觉语言模型,在文本理解与生成、视觉感知与推理、上下文长度、空间和视频动态理解以及智能体交互能力等方面都进行了全面升级。该模型采用混合专家(MoE)架构,提供卓越的多模态处理能力。
Qwen3-VL是通义系列最强大的视觉语言模型,在文本理解与生成、视觉感知与推理、上下文长度、空间和视频理解能力等方面全面升级,具备卓越的多模态交互能力。
cpatonn
Qwen3-VL是通义大模型系列最强大的视觉语言模型,在文本理解、视觉感知、空间理解、视频处理等方面全面升级,提供卓越的多模态能力。
inclusionAI
Ming-flash-omni 预览版是基于 Ling-Flash-2.0 稀疏专家混合(MoE)架构构建的多模态大模型,总参数达100B,每个token仅激活6B参数。该模型在Ming-Omni基础上进行了全面升级,在多模态理解和生成方面有显著提升,特别是在语音识别、图像生成和分割编辑方面表现突出。
Open-Bee
Bee-8B是一个先进的全开源多模态大语言模型,专注于数据质量,旨在缩小与专有模型的性能差距。通过使用高质量的Honey-Data-15M语料库和先进的数据处理管道HoneyPipe,在复杂推理等方面展现了卓越性能。
nvidia
OmniVinci是NVIDIA开发的全模态理解大语言模型,具备视觉、文本、音频处理和语音交互能力,支持多模态推理和理解。
NexaAI
OmniNeural是全球首个专门为神经处理单元(NPU)设计的全多模态模型,能够原生理解文本、图像和音频,可在PC、移动设备、汽车、物联网和机器人等多种设备上运行。
wcy1122
MGM-Omni-7B是一款全模态聊天机器人,能够处理文本、图像、视频和语音输入,并生成文本和语音响应。它具备长语音理解和生成能力,还支持中英文的零样本语音克隆。
UCSC-VLAA
OpenVision是一个全开放、高性价比的先进视觉编码器家族,专注于多模态学习。
OpenVision 是一个全开放、高性价比的先进视觉编码器家族,专为多模态学习设计。
OpenVision 是一个全开放、高性价比的先进视觉编码器家族,专注于多模态学习。
OpenVision是一个全开放、高性价比的先进视觉编码器家族,专注于多模态学习任务。
OpenVision-ViT-Tiny 是一个全开放、高性价比的先进视觉编码器,属于 OpenVision 家族的一部分,专注于多模态学习。
Pixelle MCP是一个基于MCP协议的全模态AIGC解决方案,可将ComfyUI工作流零代码转换为MCP工具,实现LLM与ComfyUI的无缝集成。
一个高性能的MCP服务器,为LLM代理提供持久化的多模态上下文存储,支持线程隔离、元数据过滤、全文搜索和语义搜索,兼容SQLite和PostgreSQL后端。
ChainFETCH MCP服务器提供对以太坊区块链智能平台的API访问,集成AI语义搜索、实时区块流和多模态查询功能,支持地址、交易、区块、代币和智能合约的全面分析。
RAG Anything MCP Server是一个提供全面检索增强生成(RAG)能力的模型上下文协议服务器,支持多模态文档处理与查询,具备端到端文档解析、批量处理、高级查询及持久化存储等功能。