生数科技发布Vidu Q2版本“生图全家桶”,集成参考生图、文生图与图像编辑三大功能。新版本上线首日使用量突破50万次,显示用户需求旺盛。Vidu Q2增强了图像生成控制力,支持精准指定画面位置、动作与构图,并输出4K画质。新增图像编辑功能包括局部重绘和材质替换,在国际评测中表现优异。
巨人网络AI Lab联合清华大学、西北工业大学发布三项音视频多模态生成技术:YingVideo-MV(音乐驱动视频生成)、YingMusic-SVC(零样本歌声转换)和YingMusic-Singer(歌声合成)。这些技术将开源,其中YingVideo-MV仅需音乐和人物图像即可生成视频。
知名AI专家李飞飞的World Labs推出Marble3D世界模型公测版,支持文本、图像、视频或3D布局直接生成完整可导航的3D虚拟世界。用户可实时交互编辑,并导出高斯溅射、三角网格或视频格式。此次公测标志着该产品从实验室概念转向实用工具。
Snapchat免费开放AI图像生成工具“Imagine Lens”,所有用户均可通过文本提示编辑或生成图片。此举旨在应对Meta AI和OpenAI等对手在AI视频领域对年轻用户的竞争,工具原为付费功能,现转为全民创作服务。
Sora 3是强大的AI视频生成平台,能从文本、图像快速生成高质量视频。
Gen-4.5是先进AI视频生成平台,可将文本和图像转为专业视频
Zimage2,图像转视频AI生成器,极速呈现超写实图像,创意无极限。
专业AI视频生成器,可将文本和图像转化为高质量视频,快速完成创作。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$2.1
$17.5
Alibaba
-
$1
$10
256
$2
$20
$8
$240
52
$3.9
$15.2
64
Bytedance
$0.8
$0.15
$1.5
128
Baidu
32
jayn7
本项目提供了腾讯HunyuanVideo-1.5-I2V-720p模型的量化GGUF版本,专门用于图像转视频和视频生成任务。该模型支持将静态图像转换为高质量视频内容,提供了多种量化版本以优化性能。
腾讯混元视频1.5模型的量化GGUF版本,专门用于图像转视频和视频生成任务。提供480P分辨率的蒸馏模型和标准模型,支持多种量化精度,包括Q4_K_S、Q8_0和FP16等。
hum-ma
Wan2.2-TI2V-5B-Turbo-GGUF是基于quanhaol/Wan2.2-TI2V-5B-Turbo基础模型转换而来的图像转视频模型,经过优化可在4GB GPU上运行,具有出色的通用性和高效推理能力。
FastVideo
FastVideo团队推出的图像转视频模型,属于CausalWan2.2 I2V A14B系列,支持8步推理,能适配从H100到4090等多种GPU,也支持Mac用户使用。
QuantStack
这是NVIDIA ChronoEdit-14B-Diffusers模型的GGUF量化版本,专门用于图像转视频任务。该模型保留了原始模型的所有功能,同时通过GGUF格式优化了部署和运行效率。
QuantTrio
Qwen3-VL-32B-Thinking-AWQ是基于Qwen/Qwen3-VL-32B-Thinking模型的量化版本,是通义系列中最强大的视觉语言模型。该模型具备卓越的文本理解与生成能力、深入的视觉感知与推理能力,支持长上下文和视频理解,适用于图像文本到文本的转换任务。
本项目提供了由LightX2V团队开发的万2.2蒸馏模型的量化GGUF版本,专门用于图像转视频和视频生成任务。该版本经过优化,可与ComfyUI-GGUF等工具配合使用,提供高效的推理性能。
spamnco
这是一个基于Wan2.1-T2V-14B模型训练的LoRA适配器,专门用于文本到视频转换任务,为图像生成提供增强功能。该模型使用AI Toolkit训练,需要特定的触发词'diddly'来激活图像生成。
BarleyFarmer
natalie_wan_2.2-lora 是基于 AI Toolkit by Ostris 训练的 LoRA 模型,专门用于文本到视频转换任务,能够有效提升图像生成的质量和效果。
Mark111111111
这是一个基于AI Toolkit by Ostris训练的LoRA模型,专门用于文本到视频转换,为图像生成带来新的体验。该模型需要配合基础模型Wan2.2-T2V-A14B使用。
Isshywondertwin
Alexis_Noir_Wan2.2-lora 是使用 AI Toolkit by Ostris 训练的 LoRA 模型,专门用于图像到视频转换任务。该模型基于 Wan2.2-I2V-A14B 基础模型,支持高分辨率图像生成。
bigdoinks420518
这是一个基于AI Toolkit by Ostris训练的LoRA模型,专门用于文本到视频的转换任务。模型基于Wan2.2-T2V-A14B架构,支持高分辨率图像生成。
zac
这是一个基于AI Toolkit by Ostris训练的LoRA模型,专门用于图像到视频转换任务,为图像生成提供了新的解决方案。该模型基于Qwen/Qwen-Image基础模型构建,使用John作为触发词来生成图像。
xreborn
这是一个基于AI Toolkit训练的LoRA模型,专门用于图像到视频转换任务。模型基于Qwen/Qwen-Image基础模型进行训练,采用creativeml-openrail-m许可证。
madcaptj
这是一个基于Qwen/Qwen-Image基础模型训练的图像转视频LoRA模型,专门用于图像生成任务,为图像创作提供了新的可能性。
ronnykhalil
这是一个基于AI Toolkit by Ostris训练的LoRA模型,专门用于图像到视频的转换,为静态图像生成带来动态效果。
万2.1文本到视频模型的GGUF格式转换版本,支持文本到视频、图像到视频和视频到视频的转换,经过量化处理以提高运行效率。
lym00
基于特定模型的转换项目,将模型转换为GGUF格式,支持文本到视频、图像到视频、视频到视频等多种功能
这是一个将 bytedance-research/Phantom 直接转换为 GGUF 格式的项目,用于图像到视频的转换任务。
Remade-AI
基于Wan2.1 14B I2V 480p模型训练的LoRA,用于生成具有子弹时间特效的图像转视频内容
MiniMax Model Context Protocol (MCP) 是一个官方服务器,支持与强大的文本转语音、视频/图像生成API交互,适用于多种客户端工具如Claude Desktop、Cursor等。
MiniMax官方模型上下文协议(MCP)服务器,支持文本转语音、视频/图像生成等API交互。
MiniMax-MCP是一个多功能服务器项目,提供文本转语音、视频生成和图像生成等API服务,支持开发者集成高级多媒体功能。
MiniMax MCP JS是一个基于JavaScript/TypeScript实现的MiniMax MCP协议工具集,提供图像生成、视频生成、文本转语音等功能,支持与MCP兼容客户端交互。
Vidu MCP Server是一个基于Model Context Protocol的服务器,用于与Vidu视频生成API交互,提供图像转视频、生成状态检查和图像上传功能。
基于TypeScript的MCP服务器,提供AI图像和视频生成功能,需要GPT4O Image Generator的API密钥支持。
MiniMax MCP JS是一个JavaScript/TypeScript实现的MiniMax模型上下文协议工具包,提供文本转语音、图像生成、视频生成和语音克隆等功能,支持多种配置方式和传输模式。
Vidu MCP服务器是一个基于Model Context Protocol的接口服务,用于与Vidu视频生成API交互,提供图像转视频、任务状态查询和图像上传功能。
Luma AI MCP服务器是一个基于Model Context Protocol的服务,集成了Luma AI的Dream Machine API(v1),提供AI生成视频/图像的工具集,包括文本/图像转视频、视频扩展、音频添加、画质提升等功能,支持通过Claude Desktop直接调用。
MiniMax官方提供的MCP服务,支持文本转语音、语音克隆、视频生成和图像生成等多种功能,可通过API与Claude、Cursor等客户端集成使用。
ComfyUI_StoryDiffusion是一个基于ComfyUI的插件,支持StoryDiffusion和MS-Diffusion模型,用于生成连贯的长序列图像和视频。项目支持多种功能,包括双角色同框、ControlNet控制、Lora加速、文本到图像和图像到图像转换等。