字节跳动Seed团队推出Seedream5.0Lite智能图像创作模型,核心突破在于采用“多模态统一架构”,实现了从执行指令到深度理解创作意图的跨越。新模型强调逻辑理解与视觉推理能力,定位为更聪明专业的“视觉创意伙伴”。
字节跳动Seed团队发布新一代视频创作模型Seedance2.0,采用统一的多模态音视频联合生成架构,推动AI视频生成从“单点突破”迈向“全能协作”的工业级应用阶段。相比1.5版本,新模型在复杂交互与运动场景下的可用率显著提升,通过出色的物理还原能力,攻克了双人花滑、多人竞技等高难度动作生成难题。
百度发布文心大模型5.0正式版,拥有2.4万亿参数,实现从多模态融合到“原生全模态”的跨越。其采用原生全模态统一建模技术,在统一架构中对文本、图像、视频和音频进行联合训练,区别于行业常见的“后期合成”方案。
商汤科技与南洋理工大学S-Lab联合发布开源多模态模型NEO,通过架构创新实现视觉语言深层统一。该模型仅需3.9亿图像文本数据(为同类模型1/10),即可达到顶尖视觉感知性能,无需海量数据或额外视觉编码器,在效率与通用性上取得突破。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
-
Anthropic
$105
$525
200
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$2
$20
Baidu
128
$6
$24
$8
$240
52
ByteDance-Seed
SAIL是一个专为视觉与语言设计的单一Transformer模型,作为统一的多模态大语言模型(MLLM),它在单一架构中无缝集成了原始像素编码和语言解码功能。
Athagi
Janus-Pro 是一种新颖的自回归框架,统一了多模态理解和生成。它通过解耦视觉编码路径,使用单一的统一 Transformer 架构处理多模态任务。
deepseek-ai
Janus-Pro 是一种新颖的自回归框架,统一了多模态理解与生成能力。通过解耦视觉编码路径,使用单一 Transformer 架构处理多模态任务。
Janus-Pro 是一种创新的自回归框架,统一了多模态理解与生成功能。通过解耦视觉编码路径,采用单一Transformer架构处理,解决了视觉编码器在理解与生成角色间的冲突。