谷歌为Ultra订阅用户推出“Veo 3.1 - Lite [低优先级]”视频生成模式,无需额外消耗积分,旨在提升创作性价比。作为目前成本最低、响应最快的方案,其运营成本低于Fast版本,进一步降低了高质量AI视频生成门槛。
谷歌推出轻量化视频生成模型Veo3.1Lite,通过架构优化大幅降低算力成本,旨在推动高质量视频生成普及。该模型对标市场轻量化产品,以高性价比和低至每秒0.05美元的720P视频生成成本,满足不同开发者需求。
微软宣布必应视频创作者全面接入Sora2模型,免费向所有用户开放。用户通过简单文本即可生成高质量视频,践行普惠AI理念。
Zopia是全球首个端到端AI视频导演Agent,用户只需输入创意文本或故事梗概,即可通过多智能体协同,自动完成剧本拆解、分镜设计、镜头生成到剪辑的全流程,输出高质量视频。它深度优化了Kling3和Vidu Q3等视频模型,实现逼真的真人场景效果。
用AI控制角色动作,几秒生成高质量舞蹈视频,支持多种风格。
Veo 4 AI视频生成器,创作高质量4K电影感视频,功能先进。
利用顶尖AI模型将静态图片转化为高质量专业视频
通过文本或图像快速生成高质量电影视频。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.7
$2.1
$17.5
Alibaba
-
$2
$20
$8
$240
52
$3.9
$15.2
64
$15.8
$12.7
Bytedance
$0.8
256
Baidu
Tencent
$1.75
$14
400
24
32
lightx2v
本仓库包含为HunyuanVideo-1.5优化的4步蒸馏模型,能够在不使用CFG(无分类器指导)的情况下实现超快速的4步推理,显著减少生成时间,同时保持高质量的视频输出。
jayn7
本项目提供了腾讯HunyuanVideo-1.5-I2V-720p模型的量化GGUF版本,专门用于图像转视频和视频生成任务。该模型支持将静态图像转换为高质量视频内容,提供了多种量化版本以优化性能。
为HunyuanVideo-1.5优化的量化模型,与LightX2V框架配合使用,在显著减少内存使用的同时保持高质量视频生成性能。
mradermacher
UME-R1-7B的静态量化版本,支持句子相似度、嵌入、零样本图像分类、视频文本到文本等多任务。提供多种量化类型以满足不同需求,从轻量级Q2_K到高质量Q8_0版本。
meituan-longcat
LongCat-Video是一款具有136亿参数的基础视频生成模型,在文本到视频、图像到视频和视频续帧等生成任务中表现出色,尤其擅长高效、高质量的长视频生成。
Alissonerdx
HuMo是一个统一的、以人为中心的视频生成框架,能够根据文本、图像和音频等多模态输入,生成高质量、细粒度且可控的人类视频。它支持强大的文本提示跟随、一致的主体保留以及同步的音频驱动运动。
VeryAladeen
HuMo是一个以人为中心的视频生成框架,能够利用文本、图像和音频等多模态输入生成高质量、细粒度且可控的人类视频,支持文本提示跟随、主体保留和音频驱动运动同步。
Wan-AI
Wan2.2-S2V-14B是一个专为音频驱动的电影级视频生成而设计的混合专家(MoE)模型。它能够根据输入的音频、参考图像和文本提示生成高质量的视频内容,支持480P和720P分辨率,并具备复杂运动生成和电影级美学效果。
FastVideo
FastVideo FastWan2.2-TI2V-5B-FullAttn-Diffusers 是一个基于diffusers库构建的文本到视频生成模型,采用新颖的稀疏蒸馏策略进行微调,支持3步快速推理,能够生成高质量121×704×1280分辨率的视频。
FastWan2.1-T2V-1.3B-Diffusers是基于全新Sparse-distill策略微调的视频生成模型,结合蒸馏和稀疏注意力优势,支持高效的3步推理,能够以61×448×832分辨率生成高质量视频。
nvidia
Cosmos-Predict2.5是NVIDIA开发的专为物理AI设计的高性能预训练世界基础模型套件,基于扩散模型技术,能够根据文本、图像或视频输入生成具有物理感知的高质量图像和视频,为自动驾驶、机器人等应用提供世界模拟能力。
ByteDance
ContentV是一个高效的视频生成模型框架,通过极简架构、多阶段训练策略和经济高效的强化学习框架,在有限计算资源下实现高质量视频生成。
Lightricks
首个基于DiT架构的实时高质量视频生成模型,支持1216×704分辨率30FPS生成
首个基于DiT架构的实时高质量视频生成模型,能以30帧/秒生成1216×704分辨率视频
Skywork
SkyReels V2是一个无限长度电影生成模型,采用自回归扩散强制架构,支持高质量视频生成。
SkyReels V2是一个无限长度电影生成模型,采用自回归扩散强制架构,支持文生视频和图生视频任务,能够生成高质量的长视频内容。
SkyCaptioner-V1是专为视频数据生成高质量结构化描述而设计的模型,通过整合专业子专家模型、多模态大语言模型与人工标注,解决了通用描述模型在专业影视细节捕捉上的局限。
Video-R1
Video-R1是基于Qwen2.5-7B-Instruct开发的多模态大语言模型,专门针对视频推理任务进行优化。通过提出T-GRPO算法和构建高质量视频推理数据集,显著提升了模型在时间建模和视频理解方面的能力。
Remade-AI
基于Wan2.1 14B T2V模型训练的LoRA,专注于生成高质量眼部特写视频,支持跨场景稳定输出
lym0302
VideoLLaMA2.1-7B-AV是一款多模态大语言模型,专注于视听问答任务,能够同时处理视频和音频输入,提供高质量的问答和描述生成能力。
一个基于MCP协议的GIF生成工具,可将视频文件转换为高质量GIF动画,支持自定义帧率、尺寸和截取片段等功能。
manim-mcp 是一个基于 manimgl 库的文本转视频动画生成工具,通过多智能体 LLM 流水线将自然语言描述转换为高质量数学动画,可作为 CLI 工具、AI 代理或 MCP 服务器与 Claude 等助手集成。
VideoLingo是一款集视频翻译、本地化和配音于一体的工具,旨在生成Netflix品质的字幕。它消除了生硬的机器翻译和多行字幕,同时提供高质量的配音,实现跨语言的知识共享。
一个基于Model Context Protocol的豆包图片和视频生成服务器,支持通过文本描述生成高质量图片和视频,并查询视频生成任务状态。