Google DeepMind旗下AI视频生成模型Veo3.1迎来重大更新,核心优化“Ingredients to Video”功能,显著提升人物、物体、纹理与背景的一致性,新增原生竖版输出和专业级4K超分能力,使AI视频从演示工具升级为实用生产工具。
VideoPipe是一款开源视频分析框架,专注于计算机视觉AI算法的快速集成与落地。其核心创新在于采用可组合的管线设计,将复杂任务模块化,帮助开发者简化底层编码,聚焦业务逻辑,提升开发效率。
Runway发布最新视频生成模型Gen-4.5,专为创作者、影视制作人和企业用户设计,即将向所有订阅层级开放。该模型在文本转视频基准测试中以1247分领先,超越谷歌Veo3等竞品,成为当前最强文生视频模型。其卓越性能得益于先进的NVIDIA Hopper与Blackwell GPU平台支持。
Runway公司最新模型Gen-4.5在第三方盲测平台Video Arena中击败谷歌Veo3与OpenAI Sora2Pro,成为首个由小团队登顶的大模型。其CEO强调“专注研究、快速迭代”的可行性,并指出“一百人对万亿,靠的不是预算,而是密度”。该模型采用自研时空混合Transformer架构,展现了小团队在AI视频生成领域的突破。
Seedance 2是由字节跳动驱动的AI视频生成器,可快速生成高清视频。
30秒AI视频生成器,支持文生视频、图生视频,新用户免费20次,商用授权。
Vidzoo AI免费生成高分辨率AI视频和图像,多模型集成一键生成
一站式AI视频生成工具包,支持API,集成Sora 2等多种强大工具
Huawei
-
输入tokens/百万
输出tokens/百万
上下文长度
Stepfun
Minimax
Shawon16
这是一个基于VideoMAE架构的视频理解模型,在Kinetics数据集上预训练,并在一个未知的、可能与手语识别相关的数据集上进行了微调。模型在评估集上取得了78.11%的准确率,适用于视频分类任务。
这是一个基于VideoMAE-base架构微调的视频理解模型,专门针对手语识别任务进行优化。模型在WLASL数据集上训练了200个epoch,采用TimeSformer架构处理视频序列。
这是一个基于VideoMAE-base架构微调的视频理解模型,专门针对手语识别任务进行优化。模型在WLASL100数据集上训练了200个epoch,具备视频动作识别能力。
这是一个基于VideoMAE-base架构在未知数据集上微调的视频理解模型,专门用于手语识别任务。模型在20个训练周期后达到了18.64%的准确率。
这是一个基于VideoMAE架构的视频理解模型,在Kinetics数据集预训练的基础上进行了微调,专门用于手语识别任务。模型在评估集上表现有待提升,准确率为0.0010。
这是一个基于VideoMAE-base架构的视频理解模型,在未知数据集上进行了20个epoch的微调训练。模型在评估集上表现有限,准确率为0.0041,损失值为7.7839。
这是基于MCG-NJU/videomae-base模型在未知数据集上微调的视频理解模型,经过20个epoch的训练,在评估集上达到13.31%的准确率。该模型专门针对视频分析任务进行优化。
这是一个基于VideoMAE-base架构在WLASL数据集上微调的视频动作识别模型,专门针对手语识别任务进行优化,在评估集上达到48.22%的准确率。
这是一个基于VideoMAE-Base架构在WLASL数据集上微调的视频动作识别模型。经过200轮训练,在评估集上达到52.96%的前1准确率和79.88%的前5准确率,专门用于手语动作识别任务。
mitegvg
该模型是基于VideoMAE架构的暴力检测模型,在Kinetics数据集预训练的基础上,针对暴力检测任务进行了92轮微调。模型采用Vision Transformer架构,专门用于视频内容分析,能够识别视频中的暴力行为。
OpenGVLab
VideoChat-R1_5-7B是基于Qwen2.5-VL-7B-Instruct构建的视频文本交互模型,支持多模态任务,特别擅长视频问答功能。该模型通过强化微调增强时空感知能力,并采用迭代感知机制来强化多模态推理。
beingbatman
本模型是基于VideoMAE-Large架构在Kinetics数据集上预训练后,在未知数据集上进行微调的视频理解模型。在评估集上取得了85.86%的准确率和0.7987的损失值,表现出优秀的视频分类能力。
TIGER-Lab
本项目基于Qwen2.5-VL-7B-Instruct模型,专注于视觉问答任务,能够精准回答图像相关问题,具备较高的准确性和相关性。这是一个多模态视觉语言模型,支持图像理解和基于图像的问答交互。
Qwen2.5-VL-7B-Instruct是阿里巴巴通义千问团队开发的多模态视觉语言模型,基于70亿参数规模,专门针对视觉问答任务进行优化训练。该模型能够理解和分析图像内容,并生成准确的自然语言回答。
NiklasTUM
基于MCG-NJU/videomae-base微调的视频分析模型,用于欺骗检测任务,准确率达70.37%
VideoChat-R1_7B_caption 是一个基于 Qwen2-VL-7B-Instruct 的多模态视频文本生成模型,专注于视频内容理解和描述生成。
cocovani
基于MCG-NJU/videomae-base微调的视频理解模型,在评估集上表现一般(准确率50%)
VideoChat-R1_7B 是一个基于 Qwen2.5-VL-7B-Instruct 的多模态视频理解模型,能够处理视频和文本输入,生成文本输出。
VideoChat-R1-thinking_7B 是一个基于 Qwen2.5-VL-7B-Instruct 的多模态模型,专注于视频文本转文本任务。
EloiseInacio
基于MCG-NJU/videomae-base微调的视频理解模型,在未知数据集上训练,准确率为11.1%
开源短视频自动生成工具,整合文本转语音、自动字幕、背景视频和音乐,从简单文本输入创建专业短视频。
Video Editor MCP是一个视频编辑服务器,提供视频上传、搜索、生成和编辑功能,支持通过LLM和Video Jungle平台进行操作。
MCP Video Digest是一个视频内容处理服务,支持从多个平台提取音频并转换为文本,提供多种转录服务选择。
一个基于FFmpeg的视频编辑MCP服务器,支持通过自然语言指令执行视频剪辑、合并、格式转换等操作,并提供实时进度跟踪和错误处理。
MCP Video Digest 是一个视频内容处理服务,支持从多个平台提取音频并转换为文本,提供多种转录服务选择,具有灵活配置和高效处理能力。
一个基于OpenCV的MCP服务器,提供网络摄像头控制和图像捕捉功能
一个基于FFmpeg的视频编辑MCP服务器,支持通过自然语言命令执行视频剪辑、合并、格式转换等操作
一个基于TypeScript的MCP服务器,提供AI图像和视频生成功能,需GPT4O Image Generator的API密钥支持。
一个强大的视频编辑MCP服务器,提供视频和音频的全面编辑功能,支持操作链式处理和无缝集成到MCP客户端。
TikTok视频搜索与元数据提取服务
Video Indexer MCP服务器,提供与Video Indexer API交互的工具和资源,支持从视频洞察生成提示内容并获取。
一个MCP服务器实现,提供视频转录功能(如YouTube、Facebook、Tiktok等),可与LLMs集成。
基于MCP协议的专业视频信息分析工具,提供多维度视频文件分析能力,支持JSON、TEXT、Markdown格式输出
基于AI MCP协议的专业视频剪辑工具,提供精准剪辑、智能合并、灵活分割等核心功能,支持多格式和批量处理,无需手动安装FFmpeg。
这是一个基于Next.js框架创建的项目,使用create-next-app初始化,支持多种包管理器运行开发服务器,并集成了Vercel的Geist字体优化。项目提供Next.js学习资源和Vercel部署指南。
一个基于MCP协议的高精度视频截图工具,支持批量截图和视频信息提取
基于MCP协议的多平台视频下载服务端,支持1000+视频平台,提供双模式运行和实时进度跟踪
VideoLingo是一款集视频翻译、本地化和配音于一体的工具,旨在生成Netflix品质的字幕。它消除了生硬的机器翻译和多行字幕,同时提供高质量的配音,实现跨语言的知识共享。
MCP API是基于模型上下文协议的Sora2视频水印去除服务,可快速集成到Claude Desktop、OpenAI等主流MCP兼容工具中,通过简单API密钥认证实现视频水印智能去除。
VideoCutter是一款集成视频、音频、图像处理的专业多媒体工具,支持AI智能编辑和MCP协议,提供一站式智能化创作解决方案。