智谱AI发布GLM-5V-Turbo大模型,专为视觉编程设计。该模型突破纯文本局限,具备原生多模态能力,可直接理解设计稿和网页截图。开发者上传草图或界面截图后,模型能自动生成可运行的前端代码。其视觉感知能力实现了从“读文档”到“看界面”的转变,并支持200k超长上下文窗口。
CapCut旗下AI创作平台Dreamina AI发布多模态视频模型Seedance2.0和图像生成模型Seedream5.0Lite。Seedance2.0支持图像、视频、文本输入,实现跨场景一致性,提升表现力与操控灵活性,满足专业视频创作需求。
蚂蚁集团2026年春招启动,技术岗占比85%,其中超七成聚焦人工智能领域,重点招聘大模型算法、多模态生成等方向,彰显全面向AI进发的战略布局。
蚂蚁集团启动2026年度春季校园招聘,技术类岗位占比达85%,其中超70%与人工智能直接相关,聚焦大模型算法、多模态生成、数据智能及AI安全等核心领域。工作地点覆盖全球多个城市。蚂蚁连续六年春招技术类岗位占比超80%,显示其持续加码AI。
LTX-2 是代多模态 AI 视频生成模型。
统一的多模态AI,支持基于指令的图像编辑与生成,超越商业模型。
一个强大的统一多模态模型,支持文本到图像生成及图像编辑。
Magma-8B 是微软推出的一款多模态 AI 模型,能够处理图像和文本输入并生成文本输出。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
Baidu
128
$6
$24
$2
$20
unsloth
Qwen3-VL-2B-Instruct是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持以及强大的空间和视频动态理解能力。该模型采用2B参数规模,支持指令交互,适用于多模态AI应用。
Cosmos-Reason1是NVIDIA开发的物理人工智能模型,具备理解物理常识的能力,能通过长链思维推理生成具身决策。该模型支持多模态输入(文本+视频/图像),输出为文本,适用于机器人、自动驾驶等物理AI领域。
Undi95
Llama 4 Maverick 是 Meta 发布的多模态 AI 模型,支持文本与图像理解,采用混合专家架构(MoE),在多语言文本和代码生成任务中表现优异。
microsoft
Magma是一个多模态AI智能体基础模型,能够处理图像和文本输入并生成文本输出,具备虚拟与现实环境中的复杂交互能力。
Salesforce
xGen-MM是Salesforce AI Research开发的最新基础大型多模态模型系列,基于BLIP系列改进,具有强大的图像理解和文本生成能力。
unum-cloud
UForm是一款轻量级多模态AI模型,支持图像和文本的多语言理解与生成。该模型可将21种语言映射到共享向量空间,生成高达256维的嵌入向量,具有高效的参数共享架构和跨平台兼容性。
UForm是一款小巧的多模态AI模型,可将视觉和英文文本映射到共享向量空间,支持内容理解与生成。该模型采用轻量级设计,文本编码器为4层BERT,视觉编码器为ViT-S/16,可生成256维嵌入向量。
MCPollinations是一个基于Model Context Protocol(MCP)的多模态AI服务,支持通过Pollinations API生成图像、文本和音频。它提供无需认证的轻量级服务,兼容多种AI模型,并支持图像保存和Base64编码返回。