通义实验室推出Wan2.7-Video视频创作工具,旨在解决AI视频创作中内容不专业和修改困难两大痛点。该工具支持文本、图像、视频和音频全模态输入,提供先进的模型以提升画面结构、剧情走向等内容的生成质量,增强创作自由度与编辑灵活性。
CapCut旗下AI创作平台Dreamina AI发布多模态视频模型Seedance2.0和图像生成模型Seedream5.0Lite。Seedance2.0支持图像、视频、文本输入,实现跨场景一致性,提升表现力与操控灵活性,满足专业视频创作需求。
字节跳动推出AI视频生成模型Seedance2.0,支持文本、图像、音频及视频多输入,可生成1080p高保真视频,实现音视频同步,提升运动稳定性和物理真实感。在独立盲测中,其文本到视频生成表现优异。
PixVerse CLI 是一款命令行工具,旨在让开发者无需切换至浏览器,直接在终端通过命令调用 PixVerse 平台的视频和图像生成功能,从而提升工作效率。
免费AI生成工具,涵盖图像、视频、音乐、语音和文本,注册每月得10积分。
在线免费 AI 视频生成器,支持视频、图像和文本转视频。
在一个智能白板上生成、编辑和增强图像、视频和文本,一站式创意平台。
集成多AI模型,可通过对话生成图像、视频和声音,优化创意流程。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$2
$20
$6
$24
Baidu
128
MCG-NJU
SteadyDancer是一个基于图像到视频范式的强大动画框架,专门用于生成高保真且时间连贯的人体动画。该框架通过稳健的首帧保留机制,有效解决了传统方法中的身份漂移问题,在视觉质量和可控性上表现出色,同时显著减少了训练资源需求。
jayn7
本项目提供了腾讯HunyuanVideo-1.5-I2V-720p模型的量化GGUF版本,专门用于图像转视频和视频生成任务。该模型支持将静态图像转换为高质量视频内容,提供了多种量化版本以优化性能。
腾讯混元视频1.5模型的量化GGUF版本,专门用于图像转视频和视频生成任务。提供480P分辨率的蒸馏模型和标准模型,支持多种量化精度,包括Q4_K_S、Q8_0和FP16等。
kayte0342
ChronoEdit-14B是NVIDIA开发的一款具备时间推理能力的图像编辑和世界模拟模型,拥有140亿参数。它通过两阶段推理过程实现物理感知的图像编辑和基于动作条件的世界模拟,从预训练视频生成模型中提炼先验知识。
tencent
混元视频-1.5是一款轻量级高性能视频生成模型,仅用83亿参数就能提供顶级的视频质量,显著降低了使用门槛。它能在消费级GPU上流畅运行,支持文本到视频和图像到视频生成,让每个开发者和创作者都能轻松使用。
meituan-longcat
LongCat-Video是一款具有136亿参数的基础视频生成模型,在文本到视频、图像到视频和视频续帧等生成任务中表现出色,尤其擅长高效、高质量的长视频生成。
QuantTrio
Qwen3-VL-32B-Thinking-AWQ是基于Qwen/Qwen3-VL-32B-Thinking模型的量化版本,是通义系列中最强大的视觉语言模型。该模型具备卓越的文本理解与生成能力、深入的视觉感知与推理能力,支持长上下文和视频理解,适用于图像文本到文本的转换任务。
本项目提供了由LightX2V团队开发的万2.2蒸馏模型的量化GGUF版本,专门用于图像转视频和视频生成任务。该版本经过优化,可与ComfyUI-GGUF等工具配合使用,提供高效的推理性能。
zambawi
joywan-lora是基于AI Toolkit by Ostris训练的LoRA模型,专门用于文本到视频和图像生成任务,需要配合基础模型Wan-AI/Wan2.1-T2V-14B-Diffusers使用。
BarleyFarmer
natalie_wan_2.2-lora 是基于 AI Toolkit by Ostris 训练的 LoRA 模型,专门用于文本到视频转换任务,能够有效提升图像生成的质量和效果。
chetwinlow1
Ovi是一款先进的音频-视频生成模型,能够根据文本或文本+图像输入同时生成同步的视频和音频内容。该模型采用双骨干架构,支持5秒视频生成,为多媒体创作提供了强大的工具。
Alissonerdx
HuMo是一个统一的、以人为中心的视频生成框架,能够根据文本、图像和音频等多模态输入,生成高质量、细粒度且可控的人类视频。它支持强大的文本提示跟随、一致的主体保留以及同步的音频驱动运动。
VeryAladeen
HuMo是一个以人为中心的视频生成框架,能够利用文本、图像和音频等多模态输入生成高质量、细粒度且可控的人类视频,支持文本提示跟随、主体保留和音频驱动运动同步。
alibaba-pai
Wan-Fun是一款强大的文图生视频工具,支持多分辨率视频预测和多语言,能满足多样化的视频生成需求。该模型基于Wan2.2架构,具备14B参数规模,专门用于文本到视频和图像到视频的生成任务。
Wan-AI
Wan2.2-S2V-14B是一个专为音频驱动的电影级视频生成而设计的混合专家(MoE)模型。它能够根据输入的音频、参考图像和文本提示生成高质量的视频内容,支持480P和720P分辨率,并具备复杂运动生成和电影级美学效果。
wcy1122
MGM-Omni-7B是一款全模态聊天机器人,能够处理文本、图像、视频和语音输入,并生成文本和语音响应。它具备长语音理解和生成能力,还支持中英文的零样本语音克隆。
nvidia
Cosmos-Predict2.5是NVIDIA开发的专为物理AI设计的高性能预训练世界基础模型套件,基于扩散模型技术,能够根据文本、图像或视频输入生成具有物理感知的高质量图像和视频,为自动驾驶、机器人等应用提供世界模拟能力。
unsloth
Gemma 3n是谷歌推出的轻量级、最先进的多模态开放模型,基于Gemini技术构建。专为低资源设备设计,支持文本、图像、视频和音频输入,生成文本输出。采用选择性参数激活技术,在4B参数规模下高效运行。
NexaAI
Qwen2.5-Omni-3B-GGUF 是一个端到端的多模态模型,能够感知文本、图像、音频和视频等多种模态信息,同时以流式方式生成文本和自然语音响应。
Mungert
Qwen2.5-Omni-7B是一款功能强大的多模态模型,能够感知文本、图像、音频和视频等多种模态信息,并以流式方式生成文本和自然语音响应。
AI视频生成MCP服务器,支持文本和图像输入生成动态视频,提供多种参数控制和模型选择。
MCP Kling是首个且唯一完整的Kling AI MCP服务器,提供13种创意工具,支持视频生成、图像处理、唇形同步及虚拟试衣等功能,实现与Claude的无缝集成,适用于内容创作者和开发者。
MiniMax-MCP是一个多功能服务器项目,提供文本转语音、视频生成和图像生成等API服务,支持开发者集成高级多媒体功能。
MCP Gemini API服务器是一个为Cursor和Claude设计的Google Gemini API代理服务,提供文本生成、图像分析、视频分析和网络搜索等功能。
这是一个基于Google Gemini API的MCP服务器,提供文本对话、图像生成和视频生成功能,可作为Codex MCP的替代方案。
Luma API MCP是一个提供图像和视频生成服务的项目,用户可以通过API密钥接入,支持多种比例、模型和分辨率选项,并能通过参考图像或视频关键帧控制生成效果。
Vidu MCP Server是一个基于Model Context Protocol的服务器,用于与Vidu视频生成API交互,提供图像转视频、生成状态检查和图像上传功能。
Media Gen MCP 是一个严格遵循TypeScript和MCP规范的服务器,专注于使用OpenAI和Google的AI模型生成和编辑图像与视频。它提供了一系列工具,包括图像生成/编辑、视频创建/混音、文件获取与处理,并支持智能资源链接和内联输出,适用于各种MCP兼容客户端。
这是一个基于Runway API的MCP服务器项目,允许用户通过Claude Desktop调用Runway的各种AI生成功能,包括视频生成、图像生成、视频编辑和超分辨率等工具。
基于SSE的MCP服务器,提供图像和视频生成工具
一个基于TypeScript的MCP服务器,提供AI图像和视频生成功能,需GPT4O Image Generator的API密钥支持。
基于TypeScript的MCP服务器,提供AI图像和视频生成功能,需要GPT4O Image Generator的API密钥支持。
FAL图像视频MCP服务器是一个高性能的MCP协议服务器,专门用于FAL AI的图像和视频生成,支持自动下载到本地机器。它提供了公共URL、数据URL和本地文件路径,适用于Claude等MCP兼容客户端。
一个集成RunwayML和Luma AI API的多功能MCP服务器,支持视频/图像生成及处理任务
MiniMax MCP JS是一个JavaScript/TypeScript实现的MiniMax模型上下文协议工具包,提供文本转语音、图像生成、视频生成和语音克隆等功能,支持多种配置方式和传输模式。
一个基于fal.ai API的MCP服务器,用于生成图像和视频,支持扩展不同模型和API端点。
Vidu MCP服务器是一个基于Model Context Protocol的接口服务,用于与Vidu视频生成API交互,提供图像转视频、任务状态查询和图像上传功能。
MiniMax官方提供的MCP服务,支持文本转语音、语音克隆、视频生成和图像生成等多种功能,可通过API与Claude、Cursor等客户端集成使用。
ComfyUI_StoryDiffusion是一个基于ComfyUI的插件,支持StoryDiffusion和MS-Diffusion模型,用于生成连贯的长序列图像和视频。项目支持多种功能,包括双角色同框、ControlNet控制、Lora加速、文本到图像和图像到图像转换等。