Runway发布新一代视频生成模型Gen-4.5,显著提升视觉准确性与创意控制能力。用户通过简短文本提示即可生成高清动态视频,支持复杂场景与生动角色。该模型基于Nvidia GPU进行训练与推理,优化生成精度与风格表现。
Google AI工具NotebookLM新增功能:用户可通过任意文本提示生成视频摘要,突破原有风格限制,支持包括《辛普森一家》等各类视觉风格创作,并能准确还原角色设定与叙事特点。
ComfyUI云平台公测上线,用户无需本地部署和高端显卡,通过浏览器即可使用全功能Stable Diffusion进行AI图像生成,大幅降低使用门槛,让普通创作者轻松获得专业级AI视觉生产力。
百度AI助手“文心”5.0.0版本正式发布,实现功能跨越式升级。它从智能助手蜕变为集创作、搜索、交互与多媒体生成于一体的全能平台。首推的“魔法漫画”功能大幅降低视觉叙事门槛,让普通人也能轻松创作漫画,提升用户体验。
Seedream 4.5可创建4K视觉效果,支持多语言文本,适用于专业创作。
Nano Banana Pro是强大的上下文感知AI图像编辑器,用简单文本提示创作惊艳视觉效果。
免费AI图像生成器,在线创作4K艺术、肖像与超写实视觉作品。
一体化AI图像与视频创作平台,专业打造惊艳视觉内容。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
Anthropic
$105
$525
200
$0.7
$7
$35
$17.5
$21
Alibaba
$1
$10
256
-
$2
$20
$8
$240
52
Bytedance
$1.2
$3.6
4
$3.9
$15.2
64
duyntnet
Chroma 是一个高质量的文本到图像生成模型,专注于生成逼真的图像内容。该模型采用先进的扩散技术,能够根据文本描述生成高质量的视觉内容,特别适合本地部署环境下的图像创作需求。
fotographerai
ZenCtrl是一个自动化个性化视觉内容创作流程的智能体,能够执行多种设计任务和训练自用模型。
Coobiw
基于InternLM2开发的视觉语言大模型,具备卓越的图文理解与创作能力
HuggingFaceM4
Idefics2 是一个开放的多模态模型,能够接受任意序列的图像和文本输入并生成文本输出。该模型可以回答关于图像的问题、描述视觉内容、基于多张图像创作故事,或仅作为纯语言模型使用。
internlm
基于InternLM2的视觉-语言大模型,具备卓越的图文理解与创作能力
书生·浦语2是基于InternLM2的视觉语言大模型(VLLM),具备先进的图文理解与创作能力。
基于InternLM2的视觉语言大模型,具备卓越的图文理解与创作能力
InternLM-XComposer2是基于InternLM2研发的视觉-语言大模型,具备卓越的图文理解与创作能力。
JCTN
Super Cereal - SDXL LoRA是一个基于Stable Diffusion XL的文本到图像转换模型,专门针对创意内容创作场景进行了优化。该模型能够根据特定的文本提示词生成独特的视觉图像,无需复杂的触发词即可产生良好的效果。
yuanzheng
基于稳定扩散技术的文本生成图像模型,专注于商业级视觉内容创作。