快手2025年Q4财报显示,线上营销收入达236亿元,同比增长14.5%。AI技术成为商业化核心驱动力,其中AIGC生成的内容素材单季消耗已达40亿元,凸显AI与短视频商业化的深度融合。
阿里通义实验室推出PrismAudio框架,解决AI视频生成中音画不同步问题。该技术引入“思维链”机制,先分析视频内容再生成匹配音效,提升沉浸感。研究已被ICLR2026收录。
字节跳动旗下小云雀AI平台推出“短剧Agent”功能,搭载Seedance2.0算法,实现剧本到视频全流程自动化。该功能支持上传10万字剧本,具备故事理解与角色管理能力,大幅降低长篇内容创作门槛。
谷歌投资AI动画工作室Animaj,被视为YouTube首次直接投资儿童内容工作室,旨在对抗平台上的“AI垃圾内容”——即利用生成式AI批量制造、缺乏教育价值的低质视频,保护婴幼儿用户免受不良影响。
AIReel是一站式AI视频生成器,可从图像或文本生成视频。
免费的一体化AI视频与图像生成器,可创电影级内容。
Kling 4.0可根据文本生成4K电影级视频,支持多镜头叙事和原生音频。
Pexo AI视频代理,10倍速创建专业视频,自动转化概念成社交媒体内容
Openai
$2.8
输入tokens/百万
$11.2
输出tokens/百万
1k
上下文长度
Google
$0.7
$2.1
$17.5
Anthropic
$21
$105
200
Alibaba
$1
$10
256
$2
$20
-
$8
$240
52
$3.9
$15.2
64
$15.8
$12.7
Bytedance
$0.8
$54
$163
Baidu
Tencent
jayn7
本项目提供了腾讯HunyuanVideo-1.5-I2V-720p模型的量化GGUF版本,专门用于图像转视频和视频生成任务。该模型支持将静态图像转换为高质量视频内容,提供了多种量化版本以优化性能。
yaleiyaleichiling
首个真正开源、无限制的二次元视频生成模型,基于Wan2.2-5B架构,仅需6GB显存即可运行,能够生成惊艳的二次元动画内容
mitegvg
该模型是基于VideoMAE架构的暴力检测模型,在Kinetics数据集预训练的基础上,针对暴力检测任务进行了92轮微调。模型采用Vision Transformer架构,专门用于视频内容分析,能够识别视频中的暴力行为。
QuantStack
这是一个将hlwang06/HoloCine模型转换为GGUF格式的文本到视频生成模型,支持通过文本描述生成视频内容,采用Apache-2.0许可证。
MartinSSSTSGH
这是一个基于AI Toolkit by Ostris训练的LoRA模型,专门用于文本到视频的图像生成任务,使用触发词'Lilly'来生成特定风格的图像内容。
chetwinlow1
Ovi是一款先进的音频-视频生成模型,能够根据文本或文本+图像输入同时生成同步的视频和音频内容。该模型采用双骨干架构,支持5秒视频生成,为多媒体创作提供了强大的工具。
Wan-AI
Wan2.2-S2V-14B是一个专为音频驱动的电影级视频生成而设计的混合专家(MoE)模型。它能够根据输入的音频、参考图像和文本提示生成高质量的视频内容,支持480P和720P分辨率,并具备复杂运动生成和电影级美学效果。
TencentARC
ARC-Hunyuan-Video-7B 是腾讯ARC实验室开发的多模态模型,专门用于理解现实世界中的短视频内容。它能够端到端处理视觉、音频和文本信号,通过整合多模态线索实现对视频的深度结构化理解。
这是一个文本转视频的量化模型,支持将文本描述转换为视频内容,并经过GGUF量化处理以提升推理效率。
Remade-AI
基于Wan2.1 14B I2V 480p模型训练的LoRA,用于生成具有子弹时间特效的图像转视频内容
wsbagnsv1
LTX-Video是一个基于文本生成视频的模型,支持从文本或图像生成视频内容。
city96
LTX-Video是一个基于GGUF量化的文本生成视频模型,支持从文本或图像生成视频内容。
LTX-Video是一个文本生成视频的模型,支持从文本描述生成视频内容。
SkyReels-V2-I2V-14B-540P 是一个基于 GGUF 格式转换的图像转视频模型,支持从静态图像生成动态视频内容。
OpenGVLab
VideoChat-R1_7B_caption 是一个基于 Qwen2-VL-7B-Instruct 的多模态视频文本生成模型,专注于视频内容理解和描述生成。
Skywork
SkyReels V2是一个无限长度电影生成模型,采用自回归扩散强制架构,支持文生视频和图生视频任务,能够生成高质量的长视频内容。
AlekseyCalvin
这是一个针对Wan2.1 1.3B文本转视频模型的低秩适配器(LoRA),专门用于生成奥布里·比尔兹利风格的动画内容。
AdamLucek
基于Wan2.1-T2V-14B文本转视频模型的LoRA适配器,专门用于生成古书插画风格的视频内容
基于Wan2.1 14B T2V模型训练的LoRA,专门用于生成废弃场所的视频内容。
Video-R1
Video-R1-7B是基于Qwen2.5-VL-7B-Instruct优化的多模态大语言模型,专注于视频推理任务,能够理解视频内容并回答相关问题。
一个基于Model Context Protocol (MCP)的B站视频搜索服务器,提供API接口支持视频内容搜索、分页查询及视频信息返回,包含LangChain调用示例和测试脚本。
通过yt-dlp下载YouTube字幕并通过MCP协议连接Claude.ai进行视频内容分析
一个提供查询Erick Wendel在不同平台贡献内容的MCP服务器,支持通过自然语言查询演讲、博客和视频。
一个查询Erick Wendel跨平台贡献内容的MCP服务器,支持通过自然语言查询演讲、博客和视频。
Awesome MCP Security 是一个关于模型上下文协议(MCP)安全的资源集合,包括安全考虑、论文、视频、文章、工具和服务器等内容,旨在帮助用户了解和应对MCP相关的安全挑战。
YouTube MCP服务器是一个标准化接口实现,允许AI语言模型通过协议与YouTube内容进行交互,提供视频信息获取、字幕管理、频道和播放列表管理等功能。
一个用于获取网页内容和YouTube视频字幕的MCP服务器
YouTube视频分析MCP服务,提供转录提取、内容摘要和AI查询功能
TikTok MCP是一个集成TikTok访问功能的工具,通过TikNeuron为Claude AI等应用提供视频内容分析、字幕获取和帖子详情查询服务。
MCP Kling是首个且唯一完整的Kling AI MCP服务器,提供13种创意工具,支持视频生成、图像处理、唇形同步及虚拟试衣等功能,实现与Claude的无缝集成,适用于内容创作者和开发者。
MCP Video Digest是一个视频内容处理服务,支持从多个平台提取音频并转换为文本,提供多种转录服务选择。
剪映视频制作MCP服务器是一个基于Model Context Protocol的自动化工具,让AI助手能够通过自然语言创建专业的视频内容,支持自动创建剪映草稿、添加素材、应用特效和导出项目文件。
MCP Video Digest 是一个视频内容处理服务,支持从多个平台提取音频并转换为文本,提供多种转录服务选择,具有灵活配置和高效处理能力。
一个基于Model Context Protocol的服务器工具,用于从YouTube视频中提取字幕文本,支持与Cursor和Claude Desktop集成,方便AI直接分析视频内容。
yt-dlp-mcp是一个集成yt-dlp的MCP服务器实现,为LLMs提供视频和音频内容下载功能,支持多种平台如YouTube、Facebook、TikTok等。
YouTube MCP服务器是一个工具,用于从YouTube视频中获取和提取字幕,使AI语言模型能够访问和处理视频内容。
一个功能强大的YouTube内容访问MCP服务器,提供视频转录、元数据、评论、截图和音频剪辑的完整访问能力,支持Claude桌面版和网页版。
YouTube MCP是一个基于AI的解决方案,旨在通过机器学习技术提升YouTube内容交互体验,支持视频搜索、字幕获取及语义搜索等功能,无需官方API。
基于Go开发的MCP服务器,支持SSE和stdio运行方式,提供B站个人信息查询、最新关注及视频搜索功能,助力AI个性化视频内容选择。
一个为Claude桌面版设计的MCP服务器,能够通过链接抓取网页文本、YouTube视频字幕和PDF文件内容。