Meta提出基于多模态感知的AI面部表情生成技术,通过分析用户身体动作、语音等多维度信息,在虚拟互动中实现自然生动的表情生成,克服了传统方案依赖昂贵硬件或仅同步音频的局限,尤其适用于用户活动复杂、面部遮挡或仅通过身体传达信息的场景。
百度发布文心5.0全模态大模型,参数达2.4万亿,具备强大语言理解与生成能力。其采用全模态统一建模技术,可同时处理文本、图像、音频和视频,实现多类型数据的融合优化,标志着AI领域的重要进展。
快手旗下可灵AI在2026年初实现爆发式增长,月活跃用户突破1200万,App付费用户环比激增350%。增长主要得益于产品快速迭代,包括2025年底发布的多模态视频模型O1和“音画同出”功能,以及2026年1月推出的“动作控制”新功能,用户可通过图片和动作参考生成视频。
苹果推出多模态模型Manzano,通过创新的“双修”架构,解决了AI领域长期存在的视觉理解与图像生成难以兼顾的难题。
LTX-2 是代多模态 AI 视频生成模型。
统一的多模态AI,支持基于指令的图像编辑与生成,超越商业模型。
一个强大的统一多模态模型,支持文本到图像生成及图像编辑。
Magma-8B 是微软推出的一款多模态 AI 模型,能够处理图像和文本输入并生成文本输出。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
Baidu
128
$2
$20
$6
$24
unsloth
Qwen3-VL-2B-Instruct是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持以及强大的空间和视频动态理解能力。该模型采用2B参数规模,支持指令交互,适用于多模态AI应用。
Cosmos-Reason1是NVIDIA开发的物理人工智能模型,具备理解物理常识的能力,能通过长链思维推理生成具身决策。该模型支持多模态输入(文本+视频/图像),输出为文本,适用于机器人、自动驾驶等物理AI领域。
Undi95
Llama 4 Maverick 是 Meta 发布的多模态 AI 模型,支持文本与图像理解,采用混合专家架构(MoE),在多语言文本和代码生成任务中表现优异。
microsoft
Magma是一个多模态AI智能体基础模型,能够处理图像和文本输入并生成文本输出,具备虚拟与现实环境中的复杂交互能力。
Salesforce
xGen-MM是Salesforce AI Research开发的最新基础大型多模态模型系列,基于BLIP系列改进,具有强大的图像理解和文本生成能力。
unum-cloud
UForm是一款轻量级多模态AI模型,支持图像和文本的多语言理解与生成。该模型可将21种语言映射到共享向量空间,生成高达256维的嵌入向量,具有高效的参数共享架构和跨平台兼容性。
UForm是一款小巧的多模态AI模型,可将视觉和英文文本映射到共享向量空间,支持内容理解与生成。该模型采用轻量级设计,文本编码器为4层BERT,视觉编码器为ViT-S/16,可生成256维嵌入向量。
MCPollinations是一个基于Model Context Protocol(MCP)的多模态AI服务,支持通过Pollinations API生成图像、文本和音频。它提供无需认证的轻量级服务,兼容多种AI模型,并支持图像保存和Base64编码返回。