百度发布文心5.0全模态大模型,参数达2.4万亿,具备强大语言理解与生成能力。其采用全模态统一建模技术,可同时处理文本、图像、音频和视频,实现多类型数据的融合优化,标志着AI领域的重要进展。
苹果最新发布的多模态AI模型“Manzano”,成功将视觉识别与文本生成图像功能结合,实现“双修”能力。该模型不仅能精准理解图像内容,还能根据文本生成高质量图片,标志着AI技术的重要突破,有望满足行业对多功能模型的需求。
智谱联合华为开源图像生成模型GLM-Image,这是首个在国产芯片上完成全流程训练的SOTA多模态模型。其创新采用“自回归+扩散解码器”混合架构,实现了图像生成与语言模型的深度融合,在知识密集型任务中表现出色,能精准理解全局指令。
阿里云发布多模态交互开发套件,深度融合通义千问三大基础模型,预置多场景AI Agent与MCP,为智能硬件提供“开箱即用”的AI能力,降低智能化门槛,赋能AI眼镜、学习机等终端设备。
先进的多模态理解模型,融合视觉与语言能力。
多模态大型语言模型,融合视觉与语言理解。
多模态语言模型,融合文本和语音
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
-
Anthropic
$105
$525
200
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$2
$20
Baidu
128
$6
$24
$8
$240
52
Gjm1234
Wan2.2是基础视频模型的重大升级版本,专注于将有效MoE架构、高效训练策略和多模态融合等创新技术融入视频扩散模型,为视频生成领域带来更强大、更高效的解决方案。
AbstractPhil
MM-VAE Lyra是一个专门用于文本嵌入转换的多模态变分自编码器,采用几何融合技术。它结合了CLIP-L和T5-base模型,能够有效处理文本嵌入的编码和解码任务,为多模态数据处理提供创新解决方案。
Qwen
Qwen3-VL-2B-Instruct-GGUF是通义千问系列的多模态视觉语言模型的GGUF量化版本,具备20亿参数,支持图像理解和文本生成的无缝融合,可在CPU、GPU等设备上高效运行。
Hugguf
Qwen3-VL-30B-A3B-Instruct是基于Qwen3-VL-30B模型的多模态视觉语言模型,支持图像和文本的联合理解与生成任务。该模型采用先进的视觉语言融合架构,能够处理复杂的多模态推理任务。
NexaAI
Qwen3-VL-4B-Instruct是阿里云Qwen团队推出的40亿参数指令调优多模态大语言模型,专为高通NPU优化,融合强大的视觉语言理解能力与对话微调功能,适用于聊天推理、文档分析和视觉对话等实际应用场景。
chs20
FuseLIP是一种创新的多模态嵌入模型,它通过一个单一的Transformer模型,使用扩展的词汇表同时处理文本和图像离散令牌,实现了模态间的早期深度融合。该方法解决了传统对比式语言-图像预训练模型无法原生编码多模态输入的问题,在视觉问答和文本引导的图像检索等任务上表现出色。
jobs-git
SkyReels V2是全球首个采用扩散强制框架的无限长度电影生成模型,融合多模态大语言模型、多阶段预训练、强化学习与扩散强制技术实现全面优化。
shadowlilac
Llama 4 Scout是Meta推出的170亿参数混合专家架构(MoE)多模态模型,支持12种语言和图像理解,采用topk=4专家动态融合机制。
aimagelab
ReT是一种支持多模态查询与文档检索的创新方法,通过融合视觉与文本骨干网络多层级表征实现细粒度检索。
Robeeeeeeeeeee
Phi-4-multimodal-instruct是一款轻量级开源多模态基础模型,融合了Phi-3.5和4.0模型的语言、视觉及语音研究与数据集。支持文本、图像和音频输入,生成文本输出,并具备128K标记的上下文长度。
microsoft
Phi-4-multimodal-instruct是一款轻量级开源多模态基础模型,融合了Phi-3.5和4.0模型的语言、视觉及语音研究数据。支持文本、图像和音频输入,生成文本输出,并具备128K token的上下文长度。
TucanoBR
ViTucano是首个原生葡萄牙语预训练的视觉助手,融合视觉理解与语言能力,适用于多模态任务如图像描述、视觉问答等。
NVEagle
Eagle是一个以视觉为中心的高分辨率多模态大语言模型家族,通过融合多种视觉编码器和不同输入分辨率,增强了多模态大语言模型的感知能力。
facebook
Meta变色龙是FAIR研发的混合模态早期融合基础模型,支持图像和文本的多模态处理。
zongzhuofan
MoVA-8B是一个开源的多模态大语言模型,采用从粗到细的机制,自适应地路由和融合特定任务的视觉专家模块,可用于多模态模型和聊天机器人的研究。
vikhyatk
16亿参数的多模态模型,融合SigLIP与Phi-1.5技术架构,支持图像理解和问答任务
PsiPi
基于Mistral-7B的视觉语言模型,融合SigLIP-400M视觉编码器和函数调用能力,支持多模态交互
declare-lab
Mustango是一个专为可控音乐生成而设计的全新多模态大语言模型,融合了潜在扩散模型(LDM)、Flan-T5和音乐特征来实现高质量的文本到音乐生成。
photonmz
BabyDoctor是一个多模态大语言模型,融合了CLiP和LLaMA 2的能力,能够理解和生成文本,同时理解图像。该模型经过微调,专门用于解读X光、超声波、核磁共振和CT扫描等放射学图像。