阿里云通义实验室开源图像编辑模型Qwen-Image-Edit-2511,重点优化前代版本存在的编辑后图像“轻微漂移”问题,通过技术改进提升编辑一致性与视觉稳定性,为开发者提供更精准可靠的可控生成工具。
小红书开源可控图像生成框架InstanceAssemble,专为高密度、多对象、复杂空间关系的图像生成任务设计。该框架通过级联建模与Assemble-Attention机制,在仅增加极低参数的情况下,显著提升生成图像的空间对齐精度与语义一致性,为电商、设计等场景提供工业级解决方案。
Nano Banana2 AI图像模型实现重大突破,攻克复杂细节还原难题,通过模拟人类多阶段创作流程,使图像生成从随机出图迈向可控精修,彻底解决文字、时间、光影等细节易出错的问题,引领行业进入精准生成新阶段。
生数科技开放Vidu视频大模型Q1参考生图功能,突破多主体一致性技术瓶颈,实现AI图像与视频生成的商业闭环,推动多模态创作进入新阶段。该功能支持同时输入7张参考图,显著增强创作可控性,并具备多主体、多场景的强大生成能力。
可控人物图像生成模型
可控视频和图像生成技术
提升文本到图像生成的可控性
一种可控的图像到视频生成框架
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
Baidu
128
$6
$24
$2
$20
MCG-NJU
SteadyDancer是一个基于图像到视频范式的强大动画框架,专门用于生成高保真且时间连贯的人体动画。该框架通过稳健的首帧保留机制,有效解决了传统方法中的身份漂移问题,在视觉质量和可控性上表现出色,同时显著减少了训练资源需求。
Alissonerdx
HuMo是一个统一的、以人为中心的视频生成框架,能够根据文本、图像和音频等多模态输入,生成高质量、细粒度且可控的人类视频。它支持强大的文本提示跟随、一致的主体保留以及同步的音频驱动运动。
VeryAladeen
HuMo是一个以人为中心的视频生成框架,能够利用文本、图像和音频等多模态输入生成高质量、细粒度且可控的人类视频,支持文本提示跟随、主体保留和音频驱动运动同步。
qihoo360
HiCo是一个分层可控的扩散模型,专为布局到图像生成任务设计。
DoctorDiffusion
这是一个基于Stable Diffusion XL的可控矢量艺术LoRA模型,专门用于生成不同风格和细节程度的矢量艺术图像。
Model Context Protocol (MCP) 是一个开源协议,提供了一系列参考实现和社区开发的服务器,旨在为大型语言模型(LLM)提供安全、可控的工具和数据源访问。这些服务器展示了MCP的多样性和可扩展性,涵盖了从文件系统操作到数据库集成、从网络搜索到AI图像生成等多种功能。