最好的Video AI工具模型_精选Video资讯

AI资讯

Gemini Veo 3.1上线多图参考一次合成三元素视频

谷歌Gemini Pro/Ultra订阅用户现可体验Veo3.1视频模型，新增“Ingredients to Video”功能：支持同时上传三张参考图，分别提取人物、场景与风格特征，融合生成8秒1080p视频。生成内容自带SynthID隐形水印，支持网页/移动端文本输入一键生成。系统确保跨帧角色一致性与光影连贯，演示案例显示三张自拍+赛博城市背景+油画风格图可合成“印象派未来街头漫步”视频。

9.6k 2 小时前

从粗糙几何到逼真3D视频：VideoFrom3D重塑图形设计新纪元

VideoFrom3D框架革新3D图形设计，通过融合图像与视频扩散模型，从几何形状、相机路径和参考图生成逼真且风格统一的3D场景视频。无需依赖昂贵配对数据，简化流程，助力设计师高效探索创意、快速产出高质量成果。核心在于互补扩散模型的创新应用。

10.5k 3 小时前

小米开源最新多模态大模型 Xiaomi MiMo-VL-7B-2508

小米大模型团队宣布开源最新一代多模态大模型 Xiaomi MiMo-VL-7B-2508，包含 RL 与 SFT 两个版本。官方数据显示，新版模型在学科推理、文档理解、图形界面定位及视频理解四项核心能力上全面刷新纪录，其中 MMMU 基准首次突破70分大关，ChartQA 升至94.4，ScreenSpot-v2达92.5，VideoMME 提升至70.8。

15.2k 14 小时前

Sora2浮出水面:OpenAI 欲在生成式AI视频领域重夺C位

OpenAI正秘密开发Sora视频生成模型的升级版Sora2，服务器代码中已出现相关引用。此前发布的Sora虽热度下降，但近期被微软整合进Bing Video Creator重获关注。与此同时，谷歌Veo3已向大学生免费开放，普通用户也可通过Google Cloud体验。两大科技巨头在生成式AI视频领域的竞争日趋白热化，Sora2的发布或将重塑行业格局和内容创作方式。

7.5k 2 天前

AI产品

AI Image to Video

使用 AI 将图像转换为视频，免费在线生成。

视频生成

5.9k

AI Face Swap Video

一款强大的在线视频换脸工具，使用简单，效果真实。

视频编辑

6.3k

Van Gogh Free Video Generator

免费视频生成器，支持文本和图像转视频，有多样模型和效果

视频生成

6.4k

Santa Video Generator

利用AI瞬间创建迷人的圣诞老人视频，适合节日内容和个性化信息

视频生成

6.6k

模型

VideoMAE_Base_wlasl_100_longtail_200

Shawon16

这是一个基于VideoMAE-base架构在WLASL数据集上微调的视频动作识别模型，专门针对手语识别任务进行优化，在评估集上达到48.22%的准确率。

VideoMAE_Base_WLASL_100_200_epochs_p20_SR_8

Shawon16

这是一个基于VideoMAE-Base架构在WLASL数据集上微调的视频动作识别模型。经过200轮训练，在评估集上达到52.96%的前1准确率和79.88%的前5准确率，专门用于手语动作识别任务。

Videomae Tiny 92 Kinetics Binary Finetuned Xd Violence

mitegvg

该模型是基于VideoMAE架构的暴力检测模型，在Kinetics数据集预训练的基础上，针对暴力检测任务进行了92轮微调。模型采用Vision Transformer架构，专门用于视频内容分析，能够识别视频中的暴力行为。

VideoChat R1_5 7B

OpenGVLab

VideoChat-R1_5-7B是基于Qwen2.5-VL-7B-Instruct构建的视频文本交互模型，支持多模态任务，特别擅长视频问答功能。该模型通过强化微调增强时空感知能力，并采用迭代感知机制来强化多模态推理。

Ctsinov1

beingbatman

本模型是基于VideoMAE-Large架构在Kinetics数据集上预训练后，在未知数据集上进行微调的视频理解模型。在评估集上取得了85.86%的准确率和0.7987的损失值，表现出优秀的视频分类能力。

VideoScore2 SFT No CoT

TIGER-Lab

本项目基于Qwen2.5-VL-7B-Instruct模型，专注于视觉问答任务，能够精准回答图像相关问题，具备较高的准确性和相关性。这是一个多模态视觉语言模型，支持图像理解和基于图像的问答交互。

VideoScore2 SFT

TIGER-Lab

Qwen2.5-VL-7B-Instruct是阿里巴巴通义千问团队开发的多模态视觉语言模型，基于70亿参数规模，专门针对视觉问答任务进行优化训练。该模型能够理解和分析图像内容，并生成准确的自然语言回答。

Videomae Base Finetuned Deception Dataset

NiklasTUM

基于MCG-NJU/videomae-base微调的视频分析模型，用于欺骗检测任务，准确率达70.37%

计算机视觉

Transformers

NiklasTUM

VideoChat R1_7B_caption

OpenGVLab

VideoChat-R1_7B_caption 是一个基于 Qwen2-VL-7B-Instruct 的多模态视频文本生成模型，专注于视频内容理解和描述生成。

多模态

Transformers英语

OpenGVLab

Test_with_sdfvd

cocovani

基于MCG-NJU/videomae-base微调的视频理解模型，在评估集上表现一般（准确率50%）

计算机视觉

Transformers

cocovani

VideoChat R1_7B

OpenGVLab

VideoChat-R1_7B 是一个基于 Qwen2.5-VL-7B-Instruct 的多模态视频理解模型，能够处理视频和文本输入，生成文本输出。

VideoChat R1 Thinking_7B

OpenGVLab

VideoChat-R1-thinking_7B 是一个基于 Qwen2.5-VL-7B-Instruct 的多模态模型，专注于视频文本转文本任务。

Datatrain Videomae Base Finetuned Lr1e 07 Poly3

EloiseInacio

基于MCG-NJU/videomae-base微调的视频理解模型，在未知数据集上训练，准确率为11.1%

计算机视觉

Transformers

EloiseInacio

Videomae Base Finetuned 1e 08 Bs4 Ep2

EloiseInacio

基于MCG-NJU/videomae-base微调的视频理解模型，在未知数据集上进行了训练

计算机视觉

Transformers

EloiseInacio

Videomae Base Finetuned Kinetics 0409_final_5sec_org_ab7_val_inside_train

d2o2ji

该模型是基于MCG-NJU/videomae-base-finetuned-kinetics微调的版本，主要用于视频理解任务，在评估集上取得了91.38%的准确率。

计算机视觉

Transformers

d2o2ji

Videomae Base Finetuned Kinetics 0409_final_5sec_org_ab7_val_as123_retry

d2o2ji

基于MCG-NJU/videomae-base-finetuned-kinetics微调的视频理解模型，在评估集上准确率达91.23%

计算机视觉

Transformers

d2o2ji

Videomae Base Finetuned Ucf101 Subset

cccchristopher

基于VideoMAE基础模型在UCF101子集上微调的视频分类模型

计算机视觉

Transformers

cccchristopher

Videomae Base Finetuned Kinetics 0408_final_5sec_org_ab7_val_as123

d2o2ji

基于VideoMAE架构的视频动作识别模型，在Kinetics数据集上微调，准确率达92.25%

计算机视觉

Transformers

d2o2ji

Videomae Base Finetuned Kinetics 0408_final_45sec_org

d2o2ji

基于MCG-NJU/videomae-base-finetuned-kinetics微调的视频理解模型，在评估集上准确率达90.97%

计算机视觉

Transformers

d2o2ji

Qwen2.5 VL 7B COT SFT

Video-R1

Video-R1是基于Qwen2.5-7B-Instruct开发的多模态大语言模型，专门针对视频推理任务进行优化。通过提出T-GRPO算法和构建高质量视频推理数据集，显著提升了模型在时间建模和视频理解方面的能力。

MCP

Short Video Maker

开源短视频自动生成工具，整合文本转语音、自动字幕、背景视频和音乐，从简单文本输入创建专业短视频。

typescript

17.9k

4.0分

Video Editing Mcp

Video Editor MCP是一个视频编辑服务器，提供视频上传、搜索、生成和编辑功能，支持通过LLM和Video Jungle平台进行操作。

python

26k

4.0分

Video Editor (FFMpeg)

一个基于FFmpeg的视频编辑MCP服务器，支持通过自然语言指令执行视频剪辑、合并、格式转换等操作，并提供实时进度跟踪和错误处理。

python

10.4k

2.5分

Video Digest

MCP Video Digest是一个视频内容处理服务，支持从多个平台提取音频并转换为文本，提供多种转录服务选择。

python

6.7k

2.5分

Mcp Video Digest

MCP Video Digest 是一个视频内容处理服务，支持从多个平台提取音频并转换为文本，提供多种转录服务选择，具有灵活配置和高效处理能力。

python

6.6k

2.5分

VideoCapture

一个基于OpenCV的MCP服务器，提供网络摄像头控制和图像捕捉功能

python

7.4k

2.5分

Video Editor Mcp Server

一个基于FFmpeg的视频编辑MCP服务器，支持通过自然语言命令执行视频剪辑、合并、格式转换等操作

python

10.2k

2.5分

Ghibli Video Generator

一个基于TypeScript的MCP服务器，提供AI图像和视频生成功能，需GPT4O Image Generator的API密钥支持。

typescript

9.1k

2.5分

Video Edit Mcp

一个强大的视频编辑MCP服务器，提供视频和音频的全面编辑功能，支持操作链式处理和无缝集成到MCP客户端。

python

8.5k

2.5分

TikTok Video Discovery

TikTok视频搜索与元数据提取服务

python

7.6k

2.5分

Video Transcribe Mcp

一个MCP服务器实现，提供视频转录功能（如YouTube、Facebook、Tiktok等），可与LLMs集成。

typescript

8.6k

2.0分

Videoindexer Mcp

Video Indexer MCP服务器，提供与Video Indexer API交互的工具和资源，支持从视频洞察生成提示内容并获取。

python

6.5k

2.0分

Video Clip Mcp

基于AI MCP协议的专业视频剪辑工具，提供精准剪辑、智能合并、灵活分割等核心功能，支持多格式和批量处理，无需手动安装FFmpeg。

typescript

5.5k

2.0分

Video Info Mcp

基于MCP协议的专业视频信息分析工具，提供多维度视频文件分析能力，支持JSON、TEXT、Markdown格式输出

typescript

6.4k

2.0分

Video Maker

这是一个基于Next.js框架创建的项目，使用create-next-app初始化，支持多种包管理器运行开发服务器，并集成了Vercel的Geist字体优化。项目提供Next.js学习资源和Vercel部署指南。

typescript

6.4k

2.0分

Video Screenshot Mcp

一个基于MCP协议的高精度视频截图工具，支持批量截图和视频信息提取

typescript

3.6k

2.0分

Video Fetch Mcp

基于MCP协议的多平台视频下载服务端，支持1000+视频平台，提供双模式运行和实时进度跟踪

typescript

7.7k

2.0分

Videolingo

VideoLingo是一款集视频翻译、本地化和配音于一体的工具，旨在生成Netflix品质的字幕。它消除了生硬的机器翻译和多行字幕，同时提供高质量的配音，实现跨语言的知识共享。

python

10k

2.0分

Sora2 Video Watermark Removal Service

MCP API是基于模型上下文协议的Sora2视频水印去除服务，可快速集成到Claude Desktop、OpenAI等主流MCP兼容工具中，通过简单API密钥认证实现视频水印智能去除。

图像与视频处理

8.1k

2.0分

Videocutter

VideoCutter是一款集成视频、音频、图像处理的专业多媒体工具，支持AI智能编辑和MCP协议，提供一站式智能化创作解决方案。

图像与视频处理

2.0分

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

友情链接:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

商务合作网站地图

AI资讯

Gemini Veo 3.1上线多图参考 一次合成三元素视频

从粗糙几何到逼真3D视频：VideoFrom3D重塑图形设计新纪元

小米开源最新多模态大模型 Xiaomi MiMo-VL-7B-2508

Sora2浮出水面:OpenAI 欲在生成式AI视频领域重夺C位

AI产品

AI Image to Video

AI Face Swap Video

Van Gogh Free Video Generator

Santa Video Generator

模型

VideoMAE_Base_wlasl_100_longtail_200

VideoMAE_Base_WLASL_100_200_epochs_p20_SR_8

Videomae Tiny 92 Kinetics Binary Finetuned Xd Violence

VideoChat R1_5 7B

Ctsinov1

VideoScore2 SFT No CoT

VideoScore2 SFT

Videomae Base Finetuned Deception Dataset

VideoChat R1_7B_caption

Test_with_sdfvd

VideoChat R1_7B

VideoChat R1 Thinking_7B

Datatrain Videomae Base Finetuned Lr1e 07 Poly3

Videomae Base Finetuned 1e 08 Bs4 Ep2

Videomae Base Finetuned Kinetics 0409_final_5sec_org_ab7_val_inside_train

Videomae Base Finetuned Kinetics 0409_final_5sec_org_ab7_val_as123_retry

Videomae Base Finetuned Ucf101 Subset

Videomae Base Finetuned Kinetics 0408_final_5sec_org_ab7_val_as123

Videomae Base Finetuned Kinetics 0408_final_45sec_org

Qwen2.5 VL 7B COT SFT

MCP

Short Video Maker

Video Editing Mcp

Video Editor (FFMpeg)

Video Digest

Mcp Video Digest

VideoCapture

Video Editor Mcp Server

Ghibli Video Generator

Video Edit Mcp

TikTok Video Discovery

Video Transcribe Mcp

Videoindexer Mcp

Video Clip Mcp

Video Info Mcp

Video Maker

Video Screenshot Mcp

Video Fetch Mcp

Videolingo

Sora2 Video Watermark Removal Service

Videocutter

Gemini Veo 3.1上线多图参考一次合成三元素视频