昆仑万维开源视频生成大模型SkyReels-V3,实现参考图像转视频、视频延长及音频驱动虚拟形象三大功能集成。该模型支持1至4张参考图输入,能精准保留主体身份与构图,推动视频生成技术进入高保真、多模态新阶段。
美团LongCat团队开源视频生成模型LongCat-Video-Avatar,推动虚拟人技术发展。该模型在长视频生成领域表现突出,基于LongCat-Video升级,支持音频文本转视频、音频文本图像转视频及视频续写等多任务功能,受到开发者广泛关注。
生数科技发布Vidu Q2版本“生图全家桶”,集成参考生图、文生图与图像编辑三大功能。新版本上线首日使用量突破50万次,显示用户需求旺盛。Vidu Q2增强了图像生成控制力,支持精准指定画面位置、动作与构图,并输出4K画质。新增图像编辑功能包括局部重绘和材质替换,在国际评测中表现优异。
巨人网络AI Lab联合清华大学、西北工业大学发布三项音视频多模态生成技术:YingVideo-MV(音乐驱动视频生成)、YingMusic-SVC(零样本歌声转换)和YingMusic-Singer(歌声合成)。这些技术将开源,其中YingVideo-MV仅需音乐和人物图像即可生成视频。
免费在线AI视频生成器,支持文本、图像输入,有多镜头叙事等功能。
Seedance 2.0:AI视频生成器,基于文本或图像创建15秒电影级视频。
字节跳动Seedance 2,可从文本和图像生成电影级AI视频,免费开启
Kling 3.0将想法转化为电影,支持文本图像转1080p视频,可免费试用。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$2.1
$17.5
Alibaba
-
$1
$10
256
$2
$20
$8
$240
52
$3.9
$15.2
64
Bytedance
$0.8
$0.15
$1.5
128
Baidu
32
jayn7
本项目提供了腾讯HunyuanVideo-1.5-I2V-720p模型的量化GGUF版本,专门用于图像转视频和视频生成任务。该模型支持将静态图像转换为高质量视频内容,提供了多种量化版本以优化性能。
腾讯混元视频1.5模型的量化GGUF版本,专门用于图像转视频和视频生成任务。提供480P分辨率的蒸馏模型和标准模型,支持多种量化精度,包括Q4_K_S、Q8_0和FP16等。
hum-ma
Wan2.2-TI2V-5B-Turbo-GGUF是基于quanhaol/Wan2.2-TI2V-5B-Turbo基础模型转换而来的图像转视频模型,经过优化可在4GB GPU上运行,具有出色的通用性和高效推理能力。
FastVideo
FastVideo团队推出的图像转视频模型,属于CausalWan2.2 I2V A14B系列,支持8步推理,能适配从H100到4090等多种GPU,也支持Mac用户使用。
QuantStack
这是NVIDIA ChronoEdit-14B-Diffusers模型的GGUF量化版本,专门用于图像转视频任务。该模型保留了原始模型的所有功能,同时通过GGUF格式优化了部署和运行效率。
QuantTrio
Qwen3-VL-32B-Thinking-AWQ是基于Qwen/Qwen3-VL-32B-Thinking模型的量化版本,是通义系列中最强大的视觉语言模型。该模型具备卓越的文本理解与生成能力、深入的视觉感知与推理能力,支持长上下文和视频理解,适用于图像文本到文本的转换任务。
本项目提供了由LightX2V团队开发的万2.2蒸馏模型的量化GGUF版本,专门用于图像转视频和视频生成任务。该版本经过优化,可与ComfyUI-GGUF等工具配合使用,提供高效的推理性能。
spamnco
这是一个基于Wan2.1-T2V-14B模型训练的LoRA适配器,专门用于文本到视频转换任务,为图像生成提供增强功能。该模型使用AI Toolkit训练,需要特定的触发词'diddly'来激活图像生成。
BarleyFarmer
natalie_wan_2.2-lora 是基于 AI Toolkit by Ostris 训练的 LoRA 模型,专门用于文本到视频转换任务,能够有效提升图像生成的质量和效果。
Mark111111111
这是一个基于AI Toolkit by Ostris训练的LoRA模型,专门用于文本到视频转换,为图像生成带来新的体验。该模型需要配合基础模型Wan2.2-T2V-A14B使用。
Isshywondertwin
Alexis_Noir_Wan2.2-lora 是使用 AI Toolkit by Ostris 训练的 LoRA 模型,专门用于图像到视频转换任务。该模型基于 Wan2.2-I2V-A14B 基础模型,支持高分辨率图像生成。
bigdoinks420518
这是一个基于AI Toolkit by Ostris训练的LoRA模型,专门用于文本到视频的转换任务。模型基于Wan2.2-T2V-A14B架构,支持高分辨率图像生成。
zac
这是一个基于AI Toolkit by Ostris训练的LoRA模型,专门用于图像到视频转换任务,为图像生成提供了新的解决方案。该模型基于Qwen/Qwen-Image基础模型构建,使用John作为触发词来生成图像。
xreborn
这是一个基于AI Toolkit训练的LoRA模型,专门用于图像到视频转换任务。模型基于Qwen/Qwen-Image基础模型进行训练,采用creativeml-openrail-m许可证。
madcaptj
这是一个基于Qwen/Qwen-Image基础模型训练的图像转视频LoRA模型,专门用于图像生成任务,为图像创作提供了新的可能性。
ronnykhalil
这是一个基于AI Toolkit by Ostris训练的LoRA模型,专门用于图像到视频的转换,为静态图像生成带来动态效果。
万2.1文本到视频模型的GGUF格式转换版本,支持文本到视频、图像到视频和视频到视频的转换,经过量化处理以提高运行效率。
lym00
基于特定模型的转换项目,将模型转换为GGUF格式,支持文本到视频、图像到视频、视频到视频等多种功能
这是一个将 bytedance-research/Phantom 直接转换为 GGUF 格式的项目,用于图像到视频的转换任务。
Remade-AI
基于Wan2.1 14B I2V 480p模型训练的LoRA,用于生成具有子弹时间特效的图像转视频内容
MiniMax Model Context Protocol (MCP) 是一个官方服务器,支持与强大的文本转语音、视频/图像生成API交互,适用于多种客户端工具如Claude Desktop、Cursor等。
MiniMax官方模型上下文协议(MCP)服务器,支持文本转语音、视频/图像生成等API交互。
MiniMax-MCP是一个多功能服务器项目,提供文本转语音、视频生成和图像生成等API服务,支持开发者集成高级多媒体功能。
Vidu MCP Server是一个基于Model Context Protocol的服务器,用于与Vidu视频生成API交互,提供图像转视频、生成状态检查和图像上传功能。
MiniMax MCP JS是一个基于JavaScript/TypeScript实现的MiniMax MCP协议工具集,提供图像生成、视频生成、文本转语音等功能,支持与MCP兼容客户端交互。
基于TypeScript的MCP服务器,提供AI图像和视频生成功能,需要GPT4O Image Generator的API密钥支持。
MiniMax MCP JS是一个JavaScript/TypeScript实现的MiniMax模型上下文协议工具包,提供文本转语音、图像生成、视频生成和语音克隆等功能,支持多种配置方式和传输模式。
Vidu MCP服务器是一个基于Model Context Protocol的接口服务,用于与Vidu视频生成API交互,提供图像转视频、任务状态查询和图像上传功能。
Luma AI MCP服务器是一个基于Model Context Protocol的服务,集成了Luma AI的Dream Machine API(v1),提供AI生成视频/图像的工具集,包括文本/图像转视频、视频扩展、音频添加、画质提升等功能,支持通过Claude Desktop直接调用。
MiniMax官方提供的MCP服务,支持文本转语音、语音克隆、视频生成和图像生成等多种功能,可通过API与Claude、Cursor等客户端集成使用。
ComfyUI_StoryDiffusion是一个基于ComfyUI的插件,支持StoryDiffusion和MS-Diffusion模型,用于生成连贯的长序列图像和视频。项目支持多种功能,包括双角色同框、ControlNet控制、Lora加速、文本到图像和图像到图像转换等。