谷歌Gemini Pro/Ultra订阅用户现可体验Veo3.1视频模型,新增“Ingredients to Video”功能:支持同时上传三张参考图,分别提取人物、场景与风格特征,融合生成8秒1080p视频。生成内容自带SynthID隐形水印,支持网页/移动端文本输入一键生成。系统确保跨帧角色一致性与光影连贯,演示案例显示三张自拍+赛博城市背景+油画风格图可合成“印象派未来街头漫步”视频。
VideoFrom3D框架革新3D图形设计,通过融合图像与视频扩散模型,从几何形状、相机路径和参考图生成逼真且风格统一的3D场景视频。无需依赖昂贵配对数据,简化流程,助力设计师高效探索创意、快速产出高质量成果。核心在于互补扩散模型的创新应用。
小米大模型团队宣布开源最新一代多模态大模型 Xiaomi MiMo-VL-7B-2508,包含 RL 与 SFT 两个版本。 官方数据显示,新版模型在学科推理、文档理解、图形界面定位及视频理解四项核心能力上全面刷新纪录,其中 MMMU 基准首次突破70分大关,ChartQA 升至94.4,ScreenSpot-v2达92.5,VideoMME 提升至70.8。
OpenAI正秘密开发Sora视频生成模型的升级版Sora2,服务器代码中已出现相关引用。此前发布的Sora虽热度下降,但近期被微软整合进Bing Video Creator重获关注。与此同时,谷歌Veo3已向大学生免费开放,普通用户也可通过Google Cloud体验。两大科技巨头在生成式AI视频领域的竞争日趋白热化,Sora2的发布或将重塑行业格局和内容创作方式。
使用 AI 将图像转换为视频,免费在线生成。
一款强大的在线视频换脸工具,使用简单,效果真实。
免费视频生成器,支持文本和图像转视频,有多样模型和效果
利用AI瞬间创建迷人的圣诞老人视频,适合节日内容和个性化信息
Shawon16
这是一个基于VideoMAE-base架构在WLASL数据集上微调的视频动作识别模型,专门针对手语识别任务进行优化,在评估集上达到48.22%的准确率。
这是一个基于VideoMAE-Base架构在WLASL数据集上微调的视频动作识别模型。经过200轮训练,在评估集上达到52.96%的前1准确率和79.88%的前5准确率,专门用于手语动作识别任务。
mitegvg
该模型是基于VideoMAE架构的暴力检测模型,在Kinetics数据集预训练的基础上,针对暴力检测任务进行了92轮微调。模型采用Vision Transformer架构,专门用于视频内容分析,能够识别视频中的暴力行为。
OpenGVLab
VideoChat-R1_5-7B是基于Qwen2.5-VL-7B-Instruct构建的视频文本交互模型,支持多模态任务,特别擅长视频问答功能。该模型通过强化微调增强时空感知能力,并采用迭代感知机制来强化多模态推理。
beingbatman
本模型是基于VideoMAE-Large架构在Kinetics数据集上预训练后,在未知数据集上进行微调的视频理解模型。在评估集上取得了85.86%的准确率和0.7987的损失值,表现出优秀的视频分类能力。
TIGER-Lab
本项目基于Qwen2.5-VL-7B-Instruct模型,专注于视觉问答任务,能够精准回答图像相关问题,具备较高的准确性和相关性。这是一个多模态视觉语言模型,支持图像理解和基于图像的问答交互。
Qwen2.5-VL-7B-Instruct是阿里巴巴通义千问团队开发的多模态视觉语言模型,基于70亿参数规模,专门针对视觉问答任务进行优化训练。该模型能够理解和分析图像内容,并生成准确的自然语言回答。
NiklasTUM
基于MCG-NJU/videomae-base微调的视频分析模型,用于欺骗检测任务,准确率达70.37%
VideoChat-R1_7B_caption 是一个基于 Qwen2-VL-7B-Instruct 的多模态视频文本生成模型,专注于视频内容理解和描述生成。
cocovani
基于MCG-NJU/videomae-base微调的视频理解模型,在评估集上表现一般(准确率50%)
VideoChat-R1_7B 是一个基于 Qwen2.5-VL-7B-Instruct 的多模态视频理解模型,能够处理视频和文本输入,生成文本输出。
VideoChat-R1-thinking_7B 是一个基于 Qwen2.5-VL-7B-Instruct 的多模态模型,专注于视频文本转文本任务。
EloiseInacio
基于MCG-NJU/videomae-base微调的视频理解模型,在未知数据集上训练,准确率为11.1%
基于MCG-NJU/videomae-base微调的视频理解模型,在未知数据集上进行了训练
d2o2ji
该模型是基于MCG-NJU/videomae-base-finetuned-kinetics微调的版本,主要用于视频理解任务,在评估集上取得了91.38%的准确率。
基于MCG-NJU/videomae-base-finetuned-kinetics微调的视频理解模型,在评估集上准确率达91.23%
cccchristopher
基于VideoMAE基础模型在UCF101子集上微调的视频分类模型
基于VideoMAE架构的视频动作识别模型,在Kinetics数据集上微调,准确率达92.25%
基于MCG-NJU/videomae-base-finetuned-kinetics微调的视频理解模型,在评估集上准确率达90.97%
Video-R1
Video-R1是基于Qwen2.5-7B-Instruct开发的多模态大语言模型,专门针对视频推理任务进行优化。通过提出T-GRPO算法和构建高质量视频推理数据集,显著提升了模型在时间建模和视频理解方面的能力。
开源短视频自动生成工具,整合文本转语音、自动字幕、背景视频和音乐,从简单文本输入创建专业短视频。
Video Editor MCP是一个视频编辑服务器,提供视频上传、搜索、生成和编辑功能,支持通过LLM和Video Jungle平台进行操作。
一个基于FFmpeg的视频编辑MCP服务器,支持通过自然语言指令执行视频剪辑、合并、格式转换等操作,并提供实时进度跟踪和错误处理。
MCP Video Digest是一个视频内容处理服务,支持从多个平台提取音频并转换为文本,提供多种转录服务选择。
MCP Video Digest 是一个视频内容处理服务,支持从多个平台提取音频并转换为文本,提供多种转录服务选择,具有灵活配置和高效处理能力。
一个基于OpenCV的MCP服务器,提供网络摄像头控制和图像捕捉功能
一个基于FFmpeg的视频编辑MCP服务器,支持通过自然语言命令执行视频剪辑、合并、格式转换等操作
一个基于TypeScript的MCP服务器,提供AI图像和视频生成功能,需GPT4O Image Generator的API密钥支持。
一个强大的视频编辑MCP服务器,提供视频和音频的全面编辑功能,支持操作链式处理和无缝集成到MCP客户端。
TikTok视频搜索与元数据提取服务
一个MCP服务器实现,提供视频转录功能(如YouTube、Facebook、Tiktok等),可与LLMs集成。
Video Indexer MCP服务器,提供与Video Indexer API交互的工具和资源,支持从视频洞察生成提示内容并获取。
基于AI MCP协议的专业视频剪辑工具,提供精准剪辑、智能合并、灵活分割等核心功能,支持多格式和批量处理,无需手动安装FFmpeg。
基于MCP协议的专业视频信息分析工具,提供多维度视频文件分析能力,支持JSON、TEXT、Markdown格式输出
这是一个基于Next.js框架创建的项目,使用create-next-app初始化,支持多种包管理器运行开发服务器,并集成了Vercel的Geist字体优化。项目提供Next.js学习资源和Vercel部署指南。
一个基于MCP协议的高精度视频截图工具,支持批量截图和视频信息提取
基于MCP协议的多平台视频下载服务端,支持1000+视频平台,提供双模式运行和实时进度跟踪
VideoLingo是一款集视频翻译、本地化和配音于一体的工具,旨在生成Netflix品质的字幕。它消除了生硬的机器翻译和多行字幕,同时提供高质量的配音,实现跨语言的知识共享。
MCP API是基于模型上下文协议的Sora2视频水印去除服务,可快速集成到Claude Desktop、OpenAI等主流MCP兼容工具中,通过简单API密钥认证实现视频水印智能去除。
VideoCutter是一款集成视频、音频、图像处理的专业多媒体工具,支持AI智能编辑和MCP协议,提供一站式智能化创作解决方案。