谷歌NotebookLM集成Nano Banana图像生成模型,实现从文本处理到多模态创作的升级,用户可将笔记转化为视频,提升学习与创作效率。本周起向Pro用户逐步推送,预计数周内全面覆盖。
OpenAI发布新一代视频生成模型Sora2API,支持通过文本或图像生成带音频的动态视频。该技术基于多模态扩散模型,经多年训练在三维空间理解、运动建模和场景连贯性上表现卓越,显著提升了文本到视频的生成质量。
【AI日报】阿里云推出全球首个全模态AI模型Qwen3-Omni,实现文本、图像、音频与视频的统一处理。该模型为原生端到端设计,支持多模态数据整合,助力开发者洞悉技术趋势,探索创新AI应用。每日热点聚焦,助您紧跟AI领域前沿动态。
阿里云发布全球首个原生端到端全模态AI模型Qwen3-Omni并开源。该模型支持文本、图像、音频、视频多模态输入,实现实时流式输出,响应迅速。通过文本预训练与多模态混合训练,Qwen3-Omni具备强大跨模态能力,在多个领域表现先进。
Veo 4是一款强大的AI视频生成平台,利用先进的AI技术,可以从文本、图片和提示创建令人惊叹的视频。
Wan 2.1 AI 是一款将文本和图像转化为高质量视频的先进 AI 视频生成模型。
Wan2GP 是一个优化后的开源视频生成模型,专为低配置 GPU 用户设计,支持多种视频生成任务。
Wan2.1-T2V-14B 是一款高性能的文本到视频生成模型,支持多种视频生成任务。
alibaba
-
Input tokens/M
Output tokens/M
131.1k
Context Length
meituan-longcat
LongCat-Video是一款具有136亿参数的基础视频生成模型,在文本到视频、图像到视频和视频续帧等生成任务中表现出色,尤其擅长高效、高质量的长视频生成。
QuantTrio
Qwen3-VL-32B-Thinking-AWQ是基于Qwen/Qwen3-VL-32B-Thinking模型的量化版本,是通义系列中最强大的视觉语言模型。该模型具备卓越的文本理解与生成能力、深入的视觉感知与推理能力,支持长上下文和视频理解,适用于图像文本到文本的转换任务。
citizenplain
这是一个基于Wan2.1-T2V-14B模型训练的LoRA适配器,专门用于文本到视频转换任务。该模型使用AI Toolkit训练,为视频生成应用提供支持。
hyperchainsad
这是一个基于Wan2.2-T2V-A14B基础模型训练的文本到视频LoRA模型,使用AI Toolkit工具包进行训练,专门用于增强文本到视频的转换能力。
synap5e
这是一个基于AI Toolkit by Ostris训练的文本到视频LoRA模型,使用Wan2.2-T2V-A14B作为基础模型,支持文本到视频的转换任务,为相关领域的应用提供了强大的支持。
zambawi
joywan-lora是基于AI Toolkit by Ostris训练的LoRA模型,专门用于文本到视频和图像生成任务,需要配合基础模型Wan-AI/Wan2.1-T2V-14B-Diffusers使用。
spamnco
这是一个基于Wan2.1-T2V-14B模型训练的LoRA适配器,专门用于文本到视频转换任务,为图像生成提供增强功能。该模型使用AI Toolkit训练,需要特定的触发词'diddly'来激活图像生成。
BarleyFarmer
natalie_wan_2.2-lora 是基于 AI Toolkit by Ostris 训练的 LoRA 模型,专门用于文本到视频转换任务,能够有效提升图像生成的质量和效果。
MartinSSSTSGH
这是一个基于AI Toolkit by Ostris训练的LoRA模型,专门用于文本到视频的图像生成任务,使用触发词'Lilly'来生成特定风格的图像内容。
Mark111111111
这是一个基于AI Toolkit by Ostris训练的LoRA模型,专门用于文本到视频转换,为图像生成带来新的体验。该模型需要配合基础模型Wan2.2-T2V-A14B使用。
Ashmotv
animat3d_style_wan-lora是基于AI Toolkit by Ostris训练的LoRA模型,专门用于文本到视频生成,可为图像生成带来独特的3D动画风格效果。该模型基于Wan2.2-T2V-A14B基础模型进行微调,支持多种主流AI平台使用。
LL1999
这是一个基于AI Toolkit by Ostris训练的LoRA模型,专门用于文本到视频转换任务。模型采用Safetensors格式,支持在ComfyUI、AUTOMATIC1111等多种平台使用。
LiseTY
这是一个基于AI Toolkit by Ostris训练的LoRA模型,专门用于文本到视频转换任务。该模型基于Wan2.2-T2V-A14B基础模型进行微调,支持多种AI工具和框架。
bigdoinks420518
这是一个使用AI Toolkit by Ostris训练的LoRA模型,基于Wan-AI/Wan2.1-T2V-14B-Diffusers基础模型,主要用于文本到视频生成,在图像生成领域有独特应用价值。
deadpoolx22
这是一个基于AI技术的文本到视频LoRA模型,专门针对alita角色进行优化训练,可用于图像生成等场景,为相关领域的应用提供了便利。
fraemwerk
这是一个基于Wan2.1-T2V-14B模型的文本到视频LoRA适配器,使用AI Toolkit训练,专注于图像生成任务,需要特定触发词'fraemwerk'来激活生成功能。
这是一个基于AI Toolkit by Ostris训练的LoRA模型,专门用于文本到视频的转换任务。模型基于Wan2.2-T2V-A14B架构,支持高分辨率图像生成。
alibaba-pai
Wan-Fun是一款强大的文图生视频工具,支持多分辨率视频预测和多语言,能满足多样化的视频生成需求。该模型基于Wan2.2架构,具备14B参数规模,专门用于文本到视频和图像到视频的生成任务。
FastVideo
FastVideo FastWan2.2-TI2V-5B-FullAttn-Diffusers 是一个基于diffusers库构建的文本到视频生成模型,采用新颖的稀疏蒸馏策略进行微调,支持3步快速推理,能够生成高质量121×704×1280分辨率的视频。
TencentARC
ARC-Hunyuan-Video-7B 是腾讯ARC实验室开发的多模态模型,专门用于理解现实世界中的短视频内容。它能够端到端处理视觉、音频和文本信号,通过整合多模态线索实现对视频的深度结构化理解。
ComfyUI_StoryDiffusion是一个基于ComfyUI的插件,支持StoryDiffusion和MS-Diffusion模型,用于生成连贯的长序列图像和视频。项目支持多种功能,包括双角色同框、ControlNet控制、Lora加速、文本到图像和图像到图像转换等。