火山引擎推出Seedance 2.0系列API服务,作为全球领先的视频生成模型,面向企业和个人开放。该模型支持文字、图片、音频和视频混合输入,具备多模态内容参考与编辑能力,旨在通过高性能视频生成重塑行业工作流,探索新应用场景。
LPM1.0模型发布,能通过单张参考图实时生成人物说话、聆听及唱歌视频。其核心突破在于多模态处理,可同步整合文本、音频与图像,生成唇形精准同步、表情细腻且情绪过渡自然的动态画面。该模型支持接入ChatGPT等主流语音AI,将传统语音对话升级为具备视觉反馈的实时交互。
小红书Super Intelligence团队于2026年3月9日发布图像编辑模型FireRed-Image-Edit v1.1,距1.0版本发布不足一个月,迭代速度加快。新版本在保持前代优势的同时,针对ID一致性编辑、多元素融合、人像美妆及字体风格参考等复杂场景深度优化,提升了语义理解和视觉生成能力。
快手可灵AI升级至3.0版本,通过多模态一体化输入输出,重构AI视频创作流程,推动“人人皆可导演”时代到来。其核心突破在于视频生成从“片段生成”升级为“深度叙事”,并全球首创多图/视频主体参考功能,使创作者能精准锁定并控制视频主体。
Sora替代方案,集成多AI视频模型,支持上传参考图生成视频。
免费在线AI图像与视频生成平台,多参考控制,2K分辨率,76+艺术风格
FLUX 2 Dev是用于图像生成与编辑的开源权重模型,支持多参考编辑等
Midjourney SREF Codes 是一个为 Midjourney 用户提供风格参考代码的网站,帮助用户在图像创作中实现多样化风格。
Google
$0.7
Input tokens/M
$2.8
Output tokens/M
1k
Context Length
Anthropic
$21
$105
200
Alibaba
-
$1
$10
256
$2
$20
$3.9
$15.2
64
Bytedance
$0.8
$0.15
$1.5
128
Baidu
32
black-forest-labs
FLUX.2 [dev] 是一个拥有320亿参数的校正流变压器模型,专门用于图像生成、编辑和组合任务。该模型在文本到图像生成、单参考编辑和多参考编辑方面处于领先水平,无需微调即可实现角色、对象和风格参考,支持个人、科学和商业用途。
FoxBaze
这是一个Alpha版本的LoRA模型,专门为Qwen图像编辑模型设计,用于执行多参考试穿编辑任务。该模型能够将多件下装服装试穿到主体图像上,生成风格化的试穿效果。
zhiyuanyou
DeQA-Score-Mix3是基于MAGAer13/mplug-owl2-llama2-7b基础模型微调的无参考图像质量评估模型,在多个数据集上表现出色。
ZhengPeng7
BiRefNet是一个高分辨率二分图像分割模型,采用双边参考框架,在多个图像分割任务上表现优异。
aigchacker
Luma API MCP是一个提供图像和视频生成服务的项目,用户可以通过API密钥接入,支持多种比例、模型和分辨率选项,并能通过参考图像或视频关键帧控制生成效果。
Model Context Protocol (MCP) 是一个开源协议,提供了一系列参考实现和社区开发的服务器,旨在为大型语言模型(LLM)提供安全、可控的工具和数据源访问。这些服务器展示了MCP的多样性和可扩展性,涵盖了从文件系统操作到数据库集成、从网络搜索到AI图像生成等多种功能。