昆仑万维开源视频生成大模型SkyReels-V3,实现参考图像转视频、视频延长及音频驱动虚拟形象三大功能集成。该模型支持1至4张参考图输入,能精准保留主体身份与构图,推动视频生成技术进入高保真、多模态新阶段。
快手旗下可灵AI在2026年初实现爆发式增长,月活跃用户突破1200万,App付费用户环比激增350%。增长主要得益于产品快速迭代,包括2025年底发布的多模态视频模型O1和“音画同出”功能,以及2026年1月推出的“动作控制”新功能,用户可通过图片和动作参考生成视频。
Google DeepMind旗下AI视频生成模型Veo3.1迎来重大更新,核心优化“Ingredients to Video”功能,显著提升人物、物体、纹理与背景的一致性,新增原生竖版输出和专业级4K超分能力,使AI视频从演示工具升级为实用生产工具。
Vidu开放平台推出“一键生成MV”功能,用户只需提供背景音乐、参考图像和文本指令,即可在分钟内获得高质量MV。该功能基于多智能体系统,实现全自动端到端视频生成,标志着视频创作进入新时代。
FLUX 2 Dev是用于图像生成与编辑的开源权重模型,支持多参考编辑等
Midjourney SREF Codes 是一个为 Midjourney 用户提供风格参考代码的网站,帮助用户在图像创作中实现多样化风格。
Midjourney sref codes library,提供丰富的风格参考代码,帮助用户在Midjourney中创作多样化的图像。
先进的多模态图像生成模型,结合文本提示和视觉参考生成高质量图像。
Google
$0.7
Input tokens/M
$2.8
Output tokens/M
1k
Context Length
Anthropic
$21
$105
200
Alibaba
-
$1
$10
256
$2
$20
$3.9
$15.2
64
Bytedance
$0.8
$0.15
$1.5
128
Baidu
32
black-forest-labs
FLUX.2 [dev] 是一个拥有320亿参数的校正流变压器模型,专门用于图像生成、编辑和组合任务。该模型在文本到图像生成、单参考编辑和多参考编辑方面处于领先水平,无需微调即可实现角色、对象和风格参考,支持个人、科学和商业用途。
FoxBaze
这是一个Alpha版本的LoRA模型,专门为Qwen图像编辑模型设计,用于执行多参考试穿编辑任务。该模型能够将多件下装服装试穿到主体图像上,生成风格化的试穿效果。
zhiyuanyou
DeQA-Score-Mix3是基于MAGAer13/mplug-owl2-llama2-7b基础模型微调的无参考图像质量评估模型,在多个数据集上表现出色。
ZhengPeng7
BiRefNet是一个高分辨率二分图像分割模型,采用双边参考框架,在多个图像分割任务上表现优异。
aigchacker
Luma API MCP是一个提供图像和视频生成服务的项目,用户可以通过API密钥接入,支持多种比例、模型和分辨率选项,并能通过参考图像或视频关键帧控制生成效果。
Model Context Protocol (MCP) 是一个开源协议,提供了一系列参考实现和社区开发的服务器,旨在为大型语言模型(LLM)提供安全、可控的工具和数据源访问。这些服务器展示了MCP的多样性和可扩展性,涵盖了从文件系统操作到数据库集成、从网络搜索到AI图像生成等多种功能。