在第十六届北京国际电影节上,影视飓风创始人Tim分享了团队使用AI进行影像创作的经历。他们曾花费大量时间生成500多个AI镜头,但在视频中主动标注“AI生成”后,却收到大量负面评论。Tim指出,团队在无人机测评中特意使用AI技术以突显产品特点。
NVIDIA开源Lyra2.0框架,可从单张图像生成持久一致的大型3D场景,支持实时渲染与机器人仿真,为游戏开发和虚拟环境构建提供新工具。
人工智能视频生成公司Luma近日宣布成立新公司Innovative Dreams,与Wonder Project合作专注宗教题材影视制作。首部作品为摩西剧集,由奥斯卡得主本·金斯利主演,预计春季在Amazon Prime Video上线。新公司将整合资深电影人与Luma技术团队,助力创意实现。
腾讯混元团队开源视频生成加速方案DisCa,通过可学习特征缓存技术,在已蒸馏的少步模型上进一步压缩推理成本,提升生成速度。该方案代码与模型权重已公开,并被CVPR2026收录。
全球首个AI知识视频平台,可上传文档等生成知识视频。
拥有25+模型的免费AI图像与视频生成器,自由创作无限制
Nano Banana可在一个AI工作区编辑图片、生成视频,免费在线使用。
免费在线AI视频生成器,为拒绝平庸的团队提供创意视频制作方案。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
Baidu
128
$2
$20
$6
$24
256
$8
$240
52
Gjm1234
Wan2.2是基础视频模型的重大升级版本,专注于将有效MoE架构、高效训练策略和多模态融合等创新技术融入视频扩散模型,为视频生成领域带来更强大、更高效的解决方案。
lightx2v
本仓库包含为HunyuanVideo-1.5优化的4步蒸馏模型,能够在不使用CFG(无分类器指导)的情况下实现超快速的4步推理,显著减少生成时间,同时保持高质量的视频输出。
MCG-NJU
SteadyDancer是一个基于图像到视频范式的强大动画框架,专门用于生成高保真且时间连贯的人体动画。该框架通过稳健的首帧保留机制,有效解决了传统方法中的身份漂移问题,在视觉质量和可控性上表现出色,同时显著减少了训练资源需求。
jayn7
腾讯混元视频1.5模型的量化GGUF版本,专门用于文本到视频生成任务,支持720P高清视频生成,提供多种量化精度版本以优化使用效率。
本项目提供腾讯混元视频1.5文本到视频模型的量化GGUF版本,支持480P视频生成任务,包含蒸馏模型和完整模型两个版本,可与ComfyUI-GGUF等工具配合使用。
本项目提供了腾讯HunyuanVideo-1.5-I2V-720p模型的量化GGUF版本,专门用于图像转视频和视频生成任务。该模型支持将静态图像转换为高质量视频内容,提供了多种量化版本以优化性能。
腾讯混元视频1.5模型的量化GGUF版本,专门用于图像转视频和视频生成任务。提供480P分辨率的蒸馏模型和标准模型,支持多种量化精度,包括Q4_K_S、Q8_0和FP16等。
为HunyuanVideo-1.5优化的量化模型,与LightX2V框架配合使用,在显著减少内存使用的同时保持高质量视频生成性能。
yaleiyaleichiling
首个真正开源、无限制的二次元视频生成模型,基于Wan2.2-5B架构,仅需6GB显存即可运行,能够生成惊艳的二次元动画内容
kayte0342
ChronoEdit-14B是NVIDIA开发的一款具备时间推理能力的图像编辑和世界模拟模型,拥有140亿参数。它通过两阶段推理过程实现物理感知的图像编辑和基于动作条件的世界模拟,从预训练视频生成模型中提炼先验知识。
tencent
混元视频-1.5是一款轻量级高性能视频生成模型,仅用83亿参数就能提供顶级的视频质量,显著降低了使用门槛。它能在消费级GPU上流畅运行,支持文本到视频和图像到视频生成,让每个开发者和创作者都能轻松使用。
redponike
Qwen3-VL-4B-Instruct 是通义千问系列最新的视觉语言模型,在4B参数规模下实现了卓越的视觉感知、文本理解与生成、空间推理和智能体交互能力。它支持长上下文和视频理解,具备强大的OCR和多语言处理能力。
unsloth
Qwen3-VL是通义系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力以及出色的智能体交互能力。
Qwen3-VL-32B-Thinking是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文处理、空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen3-VL-8B-Thinking是通义千问系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen3-VL是通义系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen3-VL是通义系列中最强大的视觉语言模型,在文本理解与生成、视觉感知与推理、上下文长度、空间和视频动态理解以及智能体交互能力等方面全面升级。该模型提供密集架构和混合专家架构,支持从边缘设备到云端的灵活部署。
Qwen3-VL是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen3-VL是Qwen系列中最强大的视觉语言模型,实现了全方位的综合升级,包括卓越的文本理解与生成能力、更深入的视觉感知与推理能力、更长的上下文长度、增强的空间和视频动态理解能力,以及更强的智能体交互能力。
Qwen3-VL是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。该版本为2B参数的思考增强版,专门优化了推理能力。
MiniMax Model Context Protocol (MCP) 是一个官方服务器,支持与强大的文本转语音、视频/图像生成API交互,适用于多种客户端工具如Claude Desktop、Cursor等。
开源短视频自动生成工具,整合文本转语音、自动字幕、背景视频和音乐,从简单文本输入创建专业短视频。
MiniMax官方模型上下文协议(MCP)服务器,支持文本转语音、视频/图像生成等API交互。
Video Editor MCP是一个视频编辑服务器,提供视频上传、搜索、生成和编辑功能,支持通过LLM和Video Jungle平台进行操作。
一个集成OpenAI Sora 2视频生成API的MCP服务器,提供视频生成、混剪、状态查询和自动下载功能
该项目是一个基于Google Veo2模型的视频生成MCP服务器,支持通过文本提示或图像生成视频,并提供MCP资源访问功能。
AI视频生成MCP服务器,支持文本和图像输入生成动态视频,提供多种参数控制和模型选择。
Placid.app MCP服务器是一个用于与Placid.app API集成的服务实现,提供模板管理和多媒体生成功能。
MCP Kling是首个且唯一完整的Kling AI MCP服务器,提供13种创意工具,支持视频生成、图像处理、唇形同步及虚拟试衣等功能,实现与Claude的无缝集成,适用于内容创作者和开发者。
一个基于Model Context Protocol (MCP)的服务,能够自动从YouTube视频提取字幕并生成专业的LinkedIn帖子草稿。
MiniMax-MCP是一个多功能服务器项目,提供文本转语音、视频生成和图像生成等API服务,支持开发者集成高级多媒体功能。
这是一个基于Google Gemini API的MCP服务器,提供文本对话、图像生成和视频生成功能,可作为Codex MCP的替代方案。
MCP Gemini API服务器是一个为Cursor和Claude设计的Google Gemini API代理服务,提供文本生成、图像分析、视频分析和网络搜索等功能。
Plainly的官方MCP服务器实现,允许LLM客户端连接并调用Plainly视频生成API,提供设计列表、详情查询、渲染提交和状态检查等功能。
HeyGen MCP服务器是一个连接Claude Desktop等MCP客户端与HeyGen API的中间件,支持生成虚拟形象和视频,提供API调用、剩余积分查询、语音列表获取等功能。
MiniMax MCP JS是一个基于JavaScript/TypeScript实现的MiniMax MCP协议工具集,提供图像生成、视频生成、文本转语音等功能,支持与MCP兼容客户端交互。
Vidu MCP Server是一个基于Model Context Protocol的服务器,用于与Vidu视频生成API交互,提供图像转视频、生成状态检查和图像上传功能。
Luma API MCP是一个提供图像和视频生成服务的项目,用户可以通过API密钥接入,支持多种比例、模型和分辨率选项,并能通过参考图像或视频关键帧控制生成效果。
Media Gen MCP 是一个严格遵循TypeScript和MCP规范的服务器,专注于使用OpenAI和Google的AI模型生成和编辑图像与视频。它提供了一系列工具,包括图像生成/编辑、视频创建/混音、文件获取与处理,并支持智能资源链接和内联输出,适用于各种MCP兼容客户端。
PersonaLive是一个基于AI的实时肖像动画系统,支持通过摄像头实时驱动或离线视频处理生成生动的虚拟形象,适用于直播等场景。