OpenAI计划将视频生成器Sora整合进ChatGPT,以拓展多模态AI布局,强化视频创作能力,推动用户增长。目前ChatGPT周活约9.2亿,距10亿目标尚有差距。Sora的接入有望吸引短视频和视觉创作用户,应对谷歌Veo和Meta的竞争。
Google旗下NotebookLM推出“电影级视频概览”功能,将输出从幻灯片升级为专业动画视频。该功能深度集成Google生成式AI,由Gemini 3担任“创意总监”,负责叙事结构和视觉风格。
谷歌AI笔记工具NotebookLM推出信息图自定义样式功能,提供10种预设风格和完全自定义选项,用户可灵活调整视觉呈现,提升创作体验。
软通动力联合MULEI STUDIO发布“美通 AI”视觉模型,专为B端商业场景设计,旨在解决大屏内容制作成本高、更新难、同质化问题。该模型在分辨率上实现重大突破,满足巨幅显示需求,推动商用视觉内容创作的技术革新。
Squido AI可生成电影级视频和高保真照片,集成最新AI模型
一站式AI创作平台,融合视觉、视频、工具等多种创作能力
新一代AI视觉创作引擎,可创作多类型专业级视觉内容。
Visboom是电商时尚领域AI视觉创作平台,降本增效
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
Anthropic
$105
$525
200
$0.7
$7
$35
$17.5
$21
Alibaba
$1
$10
256
-
$2
$20
$8
$240
52
Bytedance
$1.2
$3.6
4
$3.9
$15.2
64
duyntnet
Chroma 是一个高质量的文本到图像生成模型,专注于生成逼真的图像内容。该模型采用先进的扩散技术,能够根据文本描述生成高质量的视觉内容,特别适合本地部署环境下的图像创作需求。
fotographerai
ZenCtrl是一个自动化个性化视觉内容创作流程的智能体,能够执行多种设计任务和训练自用模型。
Coobiw
基于InternLM2开发的视觉语言大模型,具备卓越的图文理解与创作能力
HuggingFaceM4
Idefics2 是一个开放的多模态模型,能够接受任意序列的图像和文本输入并生成文本输出。该模型可以回答关于图像的问题、描述视觉内容、基于多张图像创作故事,或仅作为纯语言模型使用。
internlm
基于InternLM2的视觉-语言大模型,具备卓越的图文理解与创作能力
书生·浦语2是基于InternLM2的视觉语言大模型(VLLM),具备先进的图文理解与创作能力。
基于InternLM2的视觉语言大模型,具备卓越的图文理解与创作能力
InternLM-XComposer2是基于InternLM2研发的视觉-语言大模型,具备卓越的图文理解与创作能力。
JCTN
Super Cereal - SDXL LoRA是一个基于Stable Diffusion XL的文本到图像转换模型,专门针对创意内容创作场景进行了优化。该模型能够根据特定的文本提示词生成独特的视觉图像,无需复杂的触发词即可产生良好的效果。
yuanzheng
基于稳定扩散技术的文本生成图像模型,专注于商业级视觉内容创作。