中国人工智能公司在视频生成领域领先,字节跳动、快手等企业凭借海量短视频库训练系统,在广告、电商、娱乐等场景中占据优势。中国工具获全球创作者认可,而美方模型表现不佳。
ComfyUI,一家由开源项目发展而来的AI初创公司,于4月24日宣布完成3000万美元融资,估值达5亿美元。本轮由Craft Ventures领投,Pace Capital等跟投。其核心产品是基于节点的工作流平台,通过模块化框架解决主流扩散模型在生成图像、视频、音频时缺乏精确控制的问题,让用户能精细调节生成过程的每一步,与Midjourney等提示词驱动的“老虎机”式工具形成对比。
MiniMax推出MMX-CLI命令行工具,专为AI Agent设计,简化全模态模型调用流程。该工具解决了接口适配繁琐、代码冗余等问题,使Agent能像原生应用一样轻松调度多种AI能力。用户可在主流开发环境中一键调用编程、视频生成等功能,无需额外编写MCP Server或适配复杂接口。
通义实验室推出Wan2.7-Video视频创作工具,旨在解决AI视频创作中内容不专业和修改困难两大痛点。该工具支持文本、图像、视频和音频全模态输入,提供先进的模型以提升画面结构、剧情走向等内容的生成质量,增强创作自由度与编辑灵活性。
谷歌原生多模态AI视频生成与编辑工具,支持文本、图像和音频一键同步创作。
免费一站式AI工具,可从文本或图像生成、编辑图像和视频,支持多种功能。
VeoOmni由谷歌AI驱动,可从文本或图像生成1080p电影级视频并同步音频。
参考驱动的AI视频生成工具,可继承参考素材风格、动作和镜头方向
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$2
$20
$6
$24
256
Baidu
128
$8
$240
52
jayn7
本项目提供腾讯混元视频1.5文本到视频模型的量化GGUF版本,支持480P视频生成任务,包含蒸馏模型和完整模型两个版本,可与ComfyUI-GGUF等工具配合使用。
本项目提供了由LightX2V团队开发的万2.2蒸馏模型的量化GGUF版本,专门用于图像转视频和视频生成任务。该版本经过优化,可与ComfyUI-GGUF等工具配合使用,提供高效的推理性能。
chetwinlow1
Ovi是一款先进的音频-视频生成模型,能够根据文本或文本+图像输入同时生成同步的视频和音频内容。该模型采用双骨干架构,支持5秒视频生成,为多媒体创作提供了强大的工具。
Hikarias
f3rnanda_wan22-lora是基于AI Toolkit by Ostris训练的LoRA模型,专门用于图像到视频的生成任务。该模型使用Wan2.2-I2V-A14B作为基础模型,支持在多种AI工具中使用,包括ComfyUI、AUTOMATIC1111等主流平台。
lichorosario
piccoli_no_style-lora 是一个基于图像到视频技术的LoRA模型,使用AI Toolkit进行训练,主要用于图像生成任务,可与多种主流AI工具配合使用。
Lightricks
基于扩散模型的视频空间分辨率增强工具,专门针对LTX视频模型生成的潜在视频表示进行超分辨率训练
alibaba-pai
基于CogVideoX架构改进的视频生成工具,支持文本/图像生成6秒左右、8fps的视频
MiniMax Model Context Protocol (MCP) 是一个官方服务器,支持与强大的文本转语音、视频/图像生成API交互,适用于多种客户端工具如Claude Desktop、Cursor等。
开源短视频自动生成工具,整合文本转语音、自动字幕、背景视频和音乐,从简单文本输入创建专业短视频。
MCP Kling是首个且唯一完整的Kling AI MCP服务器,提供13种创意工具,支持视频生成、图像处理、唇形同步及虚拟试衣等功能,实现与Claude的无缝集成,适用于内容创作者和开发者。
MiniMax MCP JS是一个基于JavaScript/TypeScript实现的MiniMax MCP协议工具集,提供图像生成、视频生成、文本转语音等功能,支持与MCP兼容客户端交互。
Media Gen MCP 是一个严格遵循TypeScript和MCP规范的服务器,专注于使用OpenAI和Google的AI模型生成和编辑图像与视频。它提供了一系列工具,包括图像生成/编辑、视频创建/混音、文件获取与处理,并支持智能资源链接和内联输出,适用于各种MCP兼容客户端。
基于SSE的MCP服务器,提供图像和视频生成工具
这是一个基于Runway API的MCP服务器项目,允许用户通过Claude Desktop调用Runway的各种AI生成功能,包括视频生成、图像生成、视频编辑和超分辨率等工具。
一个基于MCP协议的YouTube视频摘要工具,能够提取视频标题、描述和字幕,为Claude提供结构化数据以生成视频摘要。
一个基于MCP协议的GIF生成工具,可将视频文件转换为高质量GIF动画,支持自定义帧率、尺寸和截取片段等功能。
MiniMax MCP JS是一个JavaScript/TypeScript实现的MiniMax模型上下文协议工具包,提供文本转语音、图像生成、视频生成和语音克隆等功能,支持多种配置方式和传输模式。
manim-mcp 是一个基于 manimgl 库的文本转视频动画生成工具,通过多智能体 LLM 流水线将自然语言描述转换为高质量数学动画,可作为 CLI 工具、AI 代理或 MCP 服务器与 Claude 等助手集成。
Video Indexer MCP服务器,提供与Video Indexer API交互的工具和资源,支持从视频洞察生成提示内容并获取。
Tavus MCP服务器是一个基于Model Context Protocol的AI视频生成服务接口,提供完整的Tavus API v2功能,包括AI数字人创建、视频生成、对话式AI、唇形同步和语音合成等25个工具。
该项目提供了一系列社区贡献的OpenMCP服务,支持与任何MCP兼容的LLM应用程序或框架协同工作。包含快速入门示例、GitHub PR审查工具和文本转播客视频生成工具。
Luma AI MCP服务器是一个基于Model Context Protocol的服务,集成了Luma AI的Dream Machine API(v1),提供AI生成视频/图像的工具集,包括文本/图像转视频、视频扩展、音频添加、画质提升等功能,支持通过Claude Desktop直接调用。
VideoLingo是一款集视频翻译、本地化和配音于一体的工具,旨在生成Netflix品质的字幕。它消除了生硬的机器翻译和多行字幕,同时提供高质量的配音,实现跨语言的知识共享。
YouTube视频翻译与摘要生成工具
Shorts Video Maker是一个开源工具,用于自动化生成短视频。它结合了文本转语音、自动字幕、背景视频和音乐技术,通过简单文本输入创建吸引人的短视频内容。支持REST API和MCP协议,适用于内容创作者和开发者。