迪士尼与OpenAI达成三年合作,允许后者使用旗下200多个角色进行AI创作,主要用于Sora视频和ChatGPT图像生成。合作成果将在Disney+平台展示,但具体视频选择标准尚未公布。
迪士尼与OpenAI达成三年战略合作,成为Sora首个主要授权伙伴。Sora和ChatGPT图像工具可调用迪士尼旗下超200个动画角色、场景等,用于生成用户驱动的短视频和静态图像,但真人肖像和声音不在授权范围内。
阿里通义Qwen团队发布新版Qwen3-Omni-Flash-2025-12-01,作为新一代全模态大模型,能高效处理文本、图像、音频和视频输入,实现实时流式响应,生成文本与自然语音输出。升级重点提升了音视频交互体验,增强了对音视频指令的理解和执行能力,优化了口语化场景中的表现。
阿里巴巴发布新一代全模态大模型Qwen3-Omni-Flash-2025-12-01,支持文本、图像、音频和视频的无缝输入,并能实时流式同步生成高质量文本与自然语音,语音自然度接近真人。该模型采用实时流式架构,支持119种文本语言交互。
一站式 AI 视频与图像生成工具,快速创建高质量内容。
FixArt AI免费AI视频与图像生成器,无需注册登录,可创高质量内容。
Lensgo AI可秒级生成图像与视频,带来魔法般创作体验
从文本或照片生成高质量AI图像和视频,支持4K输出与多模型
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$6
$24
$2
$20
Baidu
128
MCG-NJU
SteadyDancer是一个基于图像到视频范式的强大动画框架,专门用于生成高保真且时间连贯的人体动画。该框架通过稳健的首帧保留机制,有效解决了传统方法中的身份漂移问题,在视觉质量和可控性上表现出色,同时显著减少了训练资源需求。
jayn7
本项目提供了腾讯HunyuanVideo-1.5-I2V-720p模型的量化GGUF版本,专门用于图像转视频和视频生成任务。该模型支持将静态图像转换为高质量视频内容,提供了多种量化版本以优化性能。
腾讯混元视频1.5模型的量化GGUF版本,专门用于图像转视频和视频生成任务。提供480P分辨率的蒸馏模型和标准模型,支持多种量化精度,包括Q4_K_S、Q8_0和FP16等。
kayte0342
ChronoEdit-14B是NVIDIA开发的一款具备时间推理能力的图像编辑和世界模拟模型,拥有140亿参数。它通过两阶段推理过程实现物理感知的图像编辑和基于动作条件的世界模拟,从预训练视频生成模型中提炼先验知识。
tencent
混元视频-1.5是一款轻量级高性能视频生成模型,仅用83亿参数就能提供顶级的视频质量,显著降低了使用门槛。它能在消费级GPU上流畅运行,支持文本到视频和图像到视频生成,让每个开发者和创作者都能轻松使用。
valiantcat
这是一个基于Wan2.1的飞行模型/子弹时间视频特效LoRA模型,专门用于生成具有子弹时间特效的图像,能够创造出人物悬浮在空中、相机视角围绕人物旋转的独特视觉效果。
meituan-longcat
LongCat-Video是一款具有136亿参数的基础视频生成模型,在文本到视频、图像到视频和视频续帧等生成任务中表现出色,尤其擅长高效、高质量的长视频生成。
QuantTrio
Qwen3-VL-32B-Thinking-AWQ是基于Qwen/Qwen3-VL-32B-Thinking模型的量化版本,是通义系列中最强大的视觉语言模型。该模型具备卓越的文本理解与生成能力、深入的视觉感知与推理能力,支持长上下文和视频理解,适用于图像文本到文本的转换任务。
本项目提供了由LightX2V团队开发的万2.2蒸馏模型的量化GGUF版本,专门用于图像转视频和视频生成任务。该版本经过优化,可与ComfyUI-GGUF等工具配合使用,提供高效的推理性能。
zambawi
joywan-lora是基于AI Toolkit by Ostris训练的LoRA模型,专门用于文本到视频和图像生成任务,需要配合基础模型Wan-AI/Wan2.1-T2V-14B-Diffusers使用。
spamnco
这是一个基于Wan2.1-T2V-14B模型训练的LoRA适配器,专门用于文本到视频转换任务,为图像生成提供增强功能。该模型使用AI Toolkit训练,需要特定的触发词'diddly'来激活图像生成。
BarleyFarmer
natalie_wan_2.2-lora 是基于 AI Toolkit by Ostris 训练的 LoRA 模型,专门用于文本到视频转换任务,能够有效提升图像生成的质量和效果。
MartinSSSTSGH
这是一个基于AI Toolkit by Ostris训练的LoRA模型,专门用于文本到视频的图像生成任务,使用触发词'Lilly'来生成特定风格的图像内容。
Mark111111111
这是一个基于AI Toolkit by Ostris训练的LoRA模型,专门用于文本到视频转换,为图像生成带来新的体验。该模型需要配合基础模型Wan2.2-T2V-A14B使用。
Ashmotv
animat3d_style_wan-lora是基于AI Toolkit by Ostris训练的LoRA模型,专门用于文本到视频生成,可为图像生成带来独特的3D动画风格效果。该模型基于Wan2.2-T2V-A14B基础模型进行微调,支持多种主流AI平台使用。
Isshywondertwin
Alexis_Noir_Wan2.2-lora 是使用 AI Toolkit by Ostris 训练的 LoRA 模型,专门用于图像到视频转换任务。该模型基于 Wan2.2-I2V-A14B 基础模型,支持高分辨率图像生成。
bigdoinks420518
这是一个使用AI Toolkit by Ostris训练的LoRA模型,基于Wan-AI/Wan2.1-T2V-14B-Diffusers基础模型,主要用于文本到视频生成,在图像生成领域有独特应用价值。
deadpoolx22
这是一个基于AI技术的文本到视频LoRA模型,专门针对alita角色进行优化训练,可用于图像生成等场景,为相关领域的应用提供了便利。
jude1903
AJWWan22-lora 是一个基于文本生成视频的LoRA模型,通过AI Toolkit进行训练,专门用于图像生成任务。该模型需要特定的触发词来激活生成功能。
fraemwerk
这是一个基于Wan2.1-T2V-14B模型的文本到视频LoRA适配器,使用AI Toolkit训练,专注于图像生成任务,需要特定触发词'fraemwerk'来激活生成功能。
MiniMax Model Context Protocol (MCP) 是一个官方服务器,支持与强大的文本转语音、视频/图像生成API交互,适用于多种客户端工具如Claude Desktop、Cursor等。
MiniMax官方模型上下文协议(MCP)服务器,支持文本转语音、视频/图像生成等API交互。
MCP Kling是首个且唯一完整的Kling AI MCP服务器,提供13种创意工具,支持视频生成、图像处理、唇形同步及虚拟试衣等功能,实现与Claude的无缝集成,适用于内容创作者和开发者。
该项目是一个基于Google Veo2模型的视频生成MCP服务器,支持通过文本提示或图像生成视频,并提供MCP资源访问功能。
AI视频生成MCP服务器,支持文本和图像输入生成动态视频,提供多种参数控制和模型选择。
MiniMax-MCP是一个多功能服务器项目,提供文本转语音、视频生成和图像生成等API服务,支持开发者集成高级多媒体功能。
MCP Gemini API服务器是一个为Cursor和Claude设计的Google Gemini API代理服务,提供文本生成、图像分析、视频分析和网络搜索等功能。
Luma API MCP是一个提供图像和视频生成服务的项目,用户可以通过API密钥接入,支持多种比例、模型和分辨率选项,并能通过参考图像或视频关键帧控制生成效果。
MiniMax MCP JS是一个基于JavaScript/TypeScript实现的MiniMax MCP协议工具集,提供图像生成、视频生成、文本转语音等功能,支持与MCP兼容客户端交互。
Vidu MCP Server是一个基于Model Context Protocol的服务器,用于与Vidu视频生成API交互,提供图像转视频、生成状态检查和图像上传功能。
这是一个基于Runway API的MCP服务器项目,允许用户通过Claude Desktop调用Runway的各种AI生成功能,包括视频生成、图像生成、视频编辑和超分辨率等工具。
基于SSE的MCP服务器,提供图像和视频生成工具
基于TypeScript的MCP服务器,提供AI图像和视频生成功能,需要GPT4O Image Generator的API密钥支持。
一个基于TypeScript的MCP服务器,提供AI图像和视频生成功能,需GPT4O Image Generator的API密钥支持。
FAL图像视频MCP服务器是一个高性能的MCP协议服务器,专门用于FAL AI的图像和视频生成,支持自动下载到本地机器。它提供了公共URL、数据URL和本地文件路径,适用于Claude等MCP兼容客户端。
一个集成RunwayML和Luma AI API的多功能MCP服务器,支持视频/图像生成及处理任务
MiniMax MCP JS是一个JavaScript/TypeScript实现的MiniMax模型上下文协议工具包,提供文本转语音、图像生成、视频生成和语音克隆等功能,支持多种配置方式和传输模式。
一个基于fal.ai API的MCP服务器,用于生成图像和视频,支持扩展不同模型和API端点。
Vidu MCP服务器是一个基于Model Context Protocol的接口服务,用于与Vidu视频生成API交互,提供图像转视频、任务状态查询和图像上传功能。
Luma AI的MCP服务器,通过Dream Machine API实现文本/图像生成视频、视频增强及创意内容管理功能