火山引擎推出Seedance 2.0系列API服务,作为全球领先的视频生成模型,面向企业和个人开放。该模型支持文字、图片、音频和视频混合输入,具备多模态内容参考与编辑能力,旨在通过高性能视频生成重塑行业工作流,探索新应用场景。
MiniMax推出MMX-CLI命令行工具,专为AI Agent设计,简化全模态模型调用流程。该工具解决了接口适配繁琐、代码冗余等问题,使Agent能像原生应用一样轻松调度多种AI能力。用户可在主流开发环境中一键调用编程、视频生成等功能,无需额外编写MCP Server或适配复杂接口。
阿里巴巴秘密研发的多模态大模型HappyHorse在国际评测中登顶,以1332分刷新全球视频生成Elo纪录,带动其港股早盘上涨近3%。
美团推出2026年“LongCat大模型北斗实习计划”,面向全球高校硕博生招募大模型领域实习生。该计划依托美团LongCat团队,聚焦AGI研发,覆盖基座模型算法、Infra架构、Agent应用及视觉生成等方向。团队强调技术落地真实场景,其开源模型矩阵已实现全模态覆盖,包括560B参数的混合专家模型LongCat-Flash-Chat等。
全球首个全模态推理平台,统一API接入300+模型,OpenAI兼容
全新多模态推理模型,支持图文输入、文字输出,具备高精度图像感知与复杂推理能力。
R1-Omni 是一个结合强化学习的全模态情绪识别模型,专注于提升多模态情绪识别的可解释性。
一款支持多模态功能的全功能大语言模型安卓应用。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$2
$20
Baidu
128
$6
$24
HIT-TMG
Uni-MoE 2.0-Omni 是荔枝科技(Lychee)推出的完全开源全模态模型,采用全模态 3D RoPE 和动态容量专家混合架构,显著提升了以语言为中心的多模态理解、推理和生成能力。该版本集成了全模态理解以及音频和图像生成能力。
Qwen
Qwen3-VL-8B-Thinking是通义千问系列中最强大的视觉语言模型,具备增强推理能力的8B参数版本。该模型在文本理解、视觉感知、空间理解、长上下文处理等方面全面升级,支持多模态推理和智能体交互。
Qwen3-VL-4B-Instruct是通义系列最强大的视觉语言模型之一,在文本理解、视觉感知、空间理解、视频处理等方面全面升级,支持在多种硬件设备上运行,具备卓越的多模态推理能力。
unsloth
Qwen3-VL是迄今为止Qwen系列中最强大的视觉语言模型,在文本理解与生成、视觉感知与推理、上下文长度、空间和视频动态理解以及智能体交互能力等方面都进行了全面升级。该模型采用混合专家(MoE)架构,提供卓越的多模态处理能力。
Qwen3-VL是通义系列最强大的视觉语言模型,在文本理解与生成、视觉感知与推理、上下文长度、空间和视频理解能力等方面全面升级,具备卓越的多模态交互能力。
cpatonn
Qwen3-VL是通义大模型系列最强大的视觉语言模型,在文本理解、视觉感知、空间理解、视频处理等方面全面升级,提供卓越的多模态能力。
inclusionAI
Ming-flash-omni 预览版是基于 Ling-Flash-2.0 稀疏专家混合(MoE)架构构建的多模态大模型,总参数达100B,每个token仅激活6B参数。该模型在Ming-Omni基础上进行了全面升级,在多模态理解和生成方面有显著提升,特别是在语音识别、图像生成和分割编辑方面表现突出。
Open-Bee
Bee-8B是一个先进的全开源多模态大语言模型,专注于数据质量,旨在缩小与专有模型的性能差距。通过使用高质量的Honey-Data-15M语料库和先进的数据处理管道HoneyPipe,在复杂推理等方面展现了卓越性能。
nvidia
OmniVinci是NVIDIA开发的全模态理解大语言模型,具备视觉、文本、音频处理和语音交互能力,支持多模态推理和理解。
NexaAI
OmniNeural是全球首个专门为神经处理单元(NPU)设计的全多模态模型,能够原生理解文本、图像和音频,可在PC、移动设备、汽车、物联网和机器人等多种设备上运行。
Emova-ollm
EMOVA是一种端到端全能模态大语言模型,支持视觉、听觉和语音功能,能够生成具有情感控制的文本和语音响应。
jobs-git
SkyReels V2是全球首个采用扩散强制框架的无限长度电影生成模型,融合多模态大语言模型、多阶段预训练、强化学习与扩散强制技术实现全面优化。
EMOVA是一种端到端全能模态大语言模型,支持视觉、听觉和语音功能,具备情感语音对话能力。
EMOVA是一种端到端全能模态大语言模型,支持视觉、听觉和语音功能,无需依赖外部模型即可实现多模态理解和生成。
timm
基于SigLIP图像编码器的视觉语言模型,采用全局平均池化处理,适用于多模态任务。
PKU-Alignment
AnyRewardModel 是一个全模态生成奖励模型,用于评估多模态生成任务中模型遵循指令的能力,自动选择合适的模态,并在不同模态(文本、视觉、音频)间创建协同输出,同时避免冗余。
NexaAIDev
全球最快、最高效的端侧部署音频语言模型,2.6B参数的多模态模型,可同时处理文本和音频输入。
MahmoodLab
TITAN是一个多模态全切片基础模型,通过视觉自监督学习和视觉-语言对齐进行预训练,用于病理学图像分析。
gpt-omni
Mini-Omni2是一款全交互式多模态模型,能理解图像、音频和文本输入,并与用户进行端到端的语音对话。
BAAI
Emu3是仅通过下一词元预测训练的全新多模态模型套件,在生成与感知任务中均超越多个专业模型
RAG Anything MCP Server是一个提供全面检索增强生成(RAG)能力的模型上下文协议服务器,支持多模态文档处理与查询,具备端到端文档解析、批量处理、高级查询及持久化存储等功能。