DeepSeek将于下周发布多模态大模型V4,支持图像、视频及文本生成。该模型全面适配国产算力,旨在优化与中国制造芯片的兼容性,有望推动本土半导体需求并加速AI推理与国产芯片的融合。
深度求索将于下周推出多模态大模型DeepSeek V4,原生支持图像、视频和文本生成。这是继今年1月发布R1推理模型后的首次重大更新,旨在满足国内对低成本开源模型的需求,推动AI发展。同时将发布简要技术说明,详细版本预计一个月后推出。
谷歌于2026年2月25日宣布对其AI创意工作室Flow进行重大升级,核心是将图像生成项目Whisk与ImageFX深度整合进平台,推动多模态AI工具从分散实验转向统一工作流。新版Flow搭载最新的图像模型Nano Banana,支持生成高精度图像,并可直接作为素材导入Veo视频模型,实现从静态图像到动态内容的流畅创作。
谷歌推出最新AI音乐生成模型Lyria 3,支持多模态输入,可生成30秒高保真音乐,适用于多种语言,桌面端已逐步开放体验。
LTX-2 是代多模态 AI 视频生成模型。
统一的多模态AI,支持基于指令的图像编辑与生成,超越商业模型。
一个强大的统一多模态模型,支持文本到图像生成及图像编辑。
Magma-8B 是微软推出的一款多模态 AI 模型,能够处理图像和文本输入并生成文本输出。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$2
$20
Baidu
128
$6
$24
unsloth
Qwen3-VL-2B-Instruct是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持以及强大的空间和视频动态理解能力。该模型采用2B参数规模,支持指令交互,适用于多模态AI应用。
Cosmos-Reason1是NVIDIA开发的物理人工智能模型,具备理解物理常识的能力,能通过长链思维推理生成具身决策。该模型支持多模态输入(文本+视频/图像),输出为文本,适用于机器人、自动驾驶等物理AI领域。
Undi95
Llama 4 Maverick 是 Meta 发布的多模态 AI 模型,支持文本与图像理解,采用混合专家架构(MoE),在多语言文本和代码生成任务中表现优异。
microsoft
Magma是一个多模态AI智能体基础模型,能够处理图像和文本输入并生成文本输出,具备虚拟与现实环境中的复杂交互能力。
Salesforce
xGen-MM是Salesforce AI Research开发的最新基础大型多模态模型系列,基于BLIP系列改进,具有强大的图像理解和文本生成能力。
unum-cloud
UForm是一款轻量级多模态AI模型,支持图像和文本的多语言理解与生成。该模型可将21种语言映射到共享向量空间,生成高达256维的嵌入向量,具有高效的参数共享架构和跨平台兼容性。
UForm是一款小巧的多模态AI模型,可将视觉和英文文本映射到共享向量空间,支持内容理解与生成。该模型采用轻量级设计,文本编码器为4层BERT,视觉编码器为ViT-S/16,可生成256维嵌入向量。
MCPollinations是一个基于Model Context Protocol(MCP)的多模态AI服务,支持通过Pollinations API生成图像、文本和音频。它提供无需认证的轻量级服务,兼容多种AI模型,并支持图像保存和Base64编码返回。