多模态AI公司ElevenLabs推出集成式内容创作平台,融合图像生成、视频制作、声音合成、音乐创作和音效设计功能,实现从剧本到成品视频的一站式闭环生产,帮助创作者和营销人员告别多平台切换,高效完成商业视频制作。
xAI旗下Grok Imagine实现纯文本生成短视频,用户输入描述即可在17秒内获得带音效、动态镜头和专业画质的6-15秒视频,无需图像输入或编辑基础。这一升级打通“想法到成片”环节,以高速优势挑战OpenAI Sora和Google Veo的市场地位。
Adobe发布专业级AI图像生成模型Firefly Image5,实现从“够用”到专业级的质变。新功能包括原生400万像素输出、分层提示编辑、自定义艺术风格模型及AI语音配乐生成,打通图像、视频、音频的AI创作闭环,重新定义创意工作流。
谷歌NotebookLM集成Nano Banana图像生成模型,实现从文本处理到多模态创作的升级,用户可将笔记转化为视频,提升学习与创作效率。本周起向Pro用户逐步推送,预计数周内全面覆盖。
Wan 2.1 AI 是一款将文本和图像转化为高质量视频的先进 AI 视频生成模型。
Wan2GP 是一个优化后的开源视频生成模型,专为低配置 GPU 用户设计,支持多种视频生成任务。
Wan2.1-T2V-14B 是一款高性能的文本到视频生成模型,支持多种视频生成任务。
Magic 1-For-1 是一个高效的图像到视频生成模型,可在一分钟内生成一分钟的视频。
Openai
$2.8
输入tokens/百万
$11.2
输出tokens/百万
1k
上下文长度
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
Anthropic
$105
$525
200
$0.7
$7
$35
$17.5
$21
Alibaba
-
$1
$10
256
$2
$20
$8
$240
52
Bytedance
$1.2
$3.6
4
MCG-NJU
SteadyDancer是一个基于图像到视频范式的强大动画框架,专门用于生成高保真且时间连贯的人体动画。该框架通过稳健的首帧保留机制,有效解决了传统方法中的身份漂移问题,在视觉质量和可控性上表现出色,同时显著减少了训练资源需求。
tencent
混元视频-1.5是一款轻量级高性能视频生成模型,仅用83亿参数就能提供顶级的视频质量,显著降低了使用门槛。它能在消费级GPU上流畅运行,支持文本到视频和图像到视频生成,让每个开发者和创作者都能轻松使用。
FastVideo
FastVideo团队推出的图像转视频模型,属于CausalWan2.2 I2V A14B系列,支持8步推理,能适配从H100到4090等多种GPU,也支持Mac用户使用。
mradermacher
UME-R1-7B的静态量化版本,支持句子相似度、嵌入、零样本图像分类、视频文本到文本等多任务。提供多种量化类型以满足不同需求,从轻量级Q2_K到高质量Q8_0版本。
meituan-longcat
LongCat-Video是一款具有136亿参数的基础视频生成模型,在文本到视频、图像到视频和视频续帧等生成任务中表现出色,尤其擅长高效、高质量的长视频生成。
QuantTrio
Qwen3-VL-32B-Thinking-AWQ是基于Qwen/Qwen3-VL-32B-Thinking模型的量化版本,是通义系列中最强大的视觉语言模型。该模型具备卓越的文本理解与生成能力、深入的视觉感知与推理能力,支持长上下文和视频理解,适用于图像文本到文本的转换任务。
zambawi
joywan-lora是基于AI Toolkit by Ostris训练的LoRA模型,专门用于文本到视频和图像生成任务,需要配合基础模型Wan-AI/Wan2.1-T2V-14B-Diffusers使用。
spamnco
这是一个基于Wan2.1-T2V-14B模型训练的LoRA适配器,专门用于文本到视频转换任务,为图像生成提供增强功能。该模型使用AI Toolkit训练,需要特定的触发词'diddly'来激活图像生成。
BarleyFarmer
natalie_wan_2.2-lora 是基于 AI Toolkit by Ostris 训练的 LoRA 模型,专门用于文本到视频转换任务,能够有效提升图像生成的质量和效果。
MartinSSSTSGH
这是一个基于AI Toolkit by Ostris训练的LoRA模型,专门用于文本到视频的图像生成任务,使用触发词'Lilly'来生成特定风格的图像内容。
Mark111111111
这是一个基于AI Toolkit by Ostris训练的LoRA模型,专门用于文本到视频转换,为图像生成带来新的体验。该模型需要配合基础模型Wan2.2-T2V-A14B使用。
Ashmotv
animat3d_style_wan-lora是基于AI Toolkit by Ostris训练的LoRA模型,专门用于文本到视频生成,可为图像生成带来独特的3D动画风格效果。该模型基于Wan2.2-T2V-A14B基础模型进行微调,支持多种主流AI平台使用。
Isshywondertwin
Alexis_Noir_Wan2.2-lora 是使用 AI Toolkit by Ostris 训练的 LoRA 模型,专门用于图像到视频转换任务。该模型基于 Wan2.2-I2V-A14B 基础模型,支持高分辨率图像生成。
bigdoinks420518
这是一个使用AI Toolkit by Ostris训练的LoRA模型,基于Wan-AI/Wan2.1-T2V-14B-Diffusers基础模型,主要用于文本到视频生成,在图像生成领域有独特应用价值。
EightiesPower
bl00dsqibWan22-lora是一个基于AI Toolkit by Ostris训练的LoRA模型,专门用于图像到视频处理任务,为图像和视频处理领域提供了新的解决方案。
deadpoolx22
这是一个基于AI技术的文本到视频LoRA模型,专门针对alita角色进行优化训练,可用于图像生成等场景,为相关领域的应用提供了便利。
fraemwerk
这是一个基于Wan2.1-T2V-14B模型的文本到视频LoRA适配器,使用AI Toolkit训练,专注于图像生成任务,需要特定触发词'fraemwerk'来激活生成功能。
这是一个基于AI Toolkit by Ostris训练的LoRA模型,专门用于文本到视频的转换任务。模型基于Wan2.2-T2V-A14B架构,支持高分辨率图像生成。
zac
这是一个基于AI Toolkit by Ostris训练的LoRA模型,专门用于图像到视频转换任务,为图像生成提供了新的解决方案。该模型基于Qwen/Qwen-Image基础模型构建,使用John作为触发词来生成图像。
xreborn
这是一个基于AI Toolkit训练的LoRA模型,专门用于图像到视频转换任务。模型基于Qwen/Qwen-Image基础模型进行训练,采用creativeml-openrail-m许可证。
ComfyUI_StoryDiffusion是一个基于ComfyUI的插件,支持StoryDiffusion和MS-Diffusion模型,用于生成连贯的长序列图像和视频。项目支持多种功能,包括双角色同框、ControlNet控制、Lora加速、文本到图像和图像到图像转换等。