Google DeepMind旗下AI視頻生成模型Veo3.1迎來重大更新,核心優化“Ingredients to Video”功能,顯著提升人物、物體、紋理與背景的一致性,新增原生豎版輸出和專業級4K超分能力,使AI視頻從演示工具升級爲實用生產工具。
VideoPipe是一款開源視頻分析框架,專注於計算機視覺AI算法的快速集成與落地。其核心創新在於採用可組合的管線設計,將複雜任務模塊化,幫助開發者簡化底層編碼,聚焦業務邏輯,提升開發效率。
Runway發佈最新視頻生成模型Gen-4.5,專爲創作者、影視製作人和企業用戶設計,即將向所有訂閱層級開放。該模型在文本轉視頻基準測試中以1247分領先,超越谷歌Veo3等競品,成爲當前最強文生視頻模型。其卓越性能得益於先進的NVIDIA Hopper與Blackwell GPU平臺支持。
Runway公司最新模型Gen-4.5在第三方盲測平臺Video Arena中擊敗谷歌Veo3與OpenAI Sora2Pro,成爲首個由小團隊登頂的大模型。其CEO強調“專注研究、快速迭代”的可行性,並指出“一百人對萬億,靠的不是預算,而是密度”。該模型採用自研時空混合Transformer架構,展現了小團隊在AI視頻生成領域的突破。
Seedance 2是由字節跳動驅動的AI視頻生成器,可快速生成高清視頻。
一站式AI視頻生成工具包,支持API,集成Sora 2等多種強大工具
Vidzoo AI免費生成高分辨率AI視頻和圖像,多模型集成一鍵生成
30秒AI視頻生成器,支持文生視頻、圖生視頻,新用戶免費20次,商用授權。
Huawei
-
輸入tokens/百萬
輸出tokens/百萬
上下文長度
Stepfun
Minimax
Shawon16
這是一個基於VideoMAE-base架構微調的視頻理解模型,專門針對手語識別任務進行優化。模型在WLASL數據集上訓練了200個epoch,採用TimeSformer架構處理視頻序列。
這是一個基於VideoMAE-base架構微調的視頻理解模型,專門針對手語識別任務進行優化。模型在WLASL100數據集上訓練了200個epoch,具備視頻動作識別能力。
這是一個基於VideoMAE-base架構在未知數據集上微調的視頻理解模型,專門用於手語識別任務。模型在20個訓練週期後達到了18.64%的準確率。
這是一個基於VideoMAE架構的視頻理解模型,在Kinetics數據集預訓練的基礎上進行了微調,專門用於手語識別任務。模型在評估集上表現有待提升,準確率為0.0010。
這是一個基於VideoMAE-base架構的視頻理解模型,在未知數據集上進行了20個epoch的微調訓練。模型在評估集上表現有限,準確率為0.0041,損失值為7.7839。
這是基於MCG-NJU/videomae-base模型在未知數據集上微調的視頻理解模型,經過20個epoch的訓練,在評估集上達到13.31%的準確率。該模型專門針對視頻分析任務進行優化。
這是一個基於VideoMAE-base架構在WLASL數據集上微調的視頻動作識別模型,專門針對手語識別任務進行優化,在評估集上達到48.22%的準確率。
這是一個基於VideoMAE-Base架構在WLASL數據集上微調的視頻動作識別模型。經過200輪訓練,在評估集上達到52.96%的前1準確率和79.88%的前5準確率,專門用於手語動作識別任務。
mitegvg
該模型是基於VideoMAE架構的暴力檢測模型,在Kinetics數據集預訓練的基礎上,針對暴力檢測任務進行了92輪微調。模型採用Vision Transformer架構,專門用於視頻內容分析,能夠識別視頻中的暴力行為。
OpenGVLab
VideoChat-R1_5-7B是基於Qwen2.5-VL-7B-Instruct構建的視頻文本交互模型,支持多模態任務,特別擅長視頻問答功能。該模型通過強化微調增強時空感知能力,並採用迭代感知機制來強化多模態推理。
beingbatman
本模型是基於VideoMAE-Large架構在Kinetics數據集上預訓練後,在未知數據集上進行微調的視頻理解模型。在評估集上取得了85.86%的準確率和0.7987的損失值,表現出優秀的視頻分類能力。
TIGER-Lab
本項目基於Qwen2.5-VL-7B-Instruct模型,專注於視覺問答任務,能夠精準回答圖像相關問題,具備較高的準確性和相關性。這是一個多模態視覺語言模型,支持圖像理解和基於圖像的問答交互。
Qwen2.5-VL-7B-Instruct是阿里巴巴通義千問團隊開發的多模態視覺語言模型,基於70億參數規模,專門針對視覺問答任務進行優化訓練。該模型能夠理解和分析圖像內容,並生成準確的自然語言回答。
NiklasTUM
基於MCG-NJU/videomae-base微調的視頻分析模型,用於欺騙檢測任務,準確率達70.37%
VideoChat-R1_7B_caption 是一個基於 Qwen2-VL-7B-Instruct 的多模態視頻文本生成模型,專注於視頻內容理解和描述生成。
cocovani
基於MCG-NJU/videomae-base微調的視頻理解模型,在評估集上表現一般(準確率50%)
VideoChat-R1_7B 是一個基於 Qwen2.5-VL-7B-Instruct 的多模態視頻理解模型,能夠處理視頻和文本輸入,生成文本輸出。
VideoChat-R1-thinking_7B 是一個基於 Qwen2.5-VL-7B-Instruct 的多模態模型,專注於視頻文本轉文本任務。
EloiseInacio
基於MCG-NJU/videomae-base微調的視頻理解模型,在未知數據集上訓練,準確率為11.1%
基於MCG-NJU/videomae-base微調的視頻理解模型,在未知數據集上進行了訓練
Video Editor MCP是一個視頻編輯服務器,提供視頻上傳、搜索、生成和編輯功能,支持通過LLM和Video Jungle平臺進行操作。
開源短視頻自動生成工具,整合文本轉語音、自動字幕、背景視頻和音樂,從簡單文本輸入創建專業短視頻。
一個強大的視頻編輯MCP服務器,提供視頻和音頻的全面編輯功能,支持操作鏈式處理和無縫集成到MCP客戶端。
一個基於FFmpeg的視頻編輯MCP服務器,支持通過自然語言命令執行視頻剪輯、合併、格式轉換等操作
TikTok視頻搜索與元數據提取服務
一個基於FFmpeg的視頻編輯MCP服務器,支持通過自然語言指令執行視頻剪輯、合併、格式轉換等操作,並提供即時進度跟蹤和錯誤處理。
MCP Video Digest是一個視頻內容處理服務,支持從多個平臺提取音頻並轉換為文本,提供多種轉錄服務選擇。
一個基於OpenCV的MCP服務器,提供網絡攝像頭控制和圖像捕捉功能
一個基於TypeScript的MCP服務器,提供AI圖像和視頻生成功能,需GPT4O Image Generator的API密鑰支持。
MCP Video Digest 是一個視頻內容處理服務,支持從多個平臺提取音頻並轉換為文本,提供多種轉錄服務選擇,具有靈活配置和高效處理能力。
VideoCutter是一款集成視頻、音頻、圖像處理的專業多媒體工具,支持AI智能編輯和MCP協議,提供一站式智能化創作解決方案。
一個基於MCP協議的高精度視頻截圖工具,支持批量截圖和視頻信息提取
基於AI MCP協議的專業視頻剪輯工具,提供精準剪輯、智能合併、靈活分割等核心功能,支持多格式和批量處理,無需手動安裝FFmpeg。
這是一個基於Next.js框架創建的項目,使用create-next-app初始化,支持多種包管理器運行開發服務器,並集成了Vercel的Geist字體優化。項目提供Next.js學習資源和Vercel部署指南。
基於MCP協議的多平臺視頻下載服務端,支持1000+視頻平臺,提供雙模式運行和即時進度跟蹤
Video Indexer MCP服務器,提供與Video Indexer API交互的工具和資源,支持從視頻洞察生成提示內容並獲取。
一個MCP服務器實現,提供視頻轉錄功能(如YouTube、Facebook、Tiktok等),可與LLMs集成。
MCP API是基於模型上下文協議的Sora2視頻水印去除服務,可快速集成到Claude Desktop、OpenAI等主流MCP兼容工具中,通過簡單API密鑰認證實現視頻水印智能去除。
VideoLingo是一款集視頻翻譯、本地化和配音於一體的工具,旨在生成Netflix品質的字幕。它消除了生硬的機器翻譯和多行字幕,同時提供高質量的配音,實現跨語言的知識共享。
基於MCP協議的專業視頻信息分析工具,提供多維度視頻文件分析能力,支持JSON、TEXT、Markdown格式輸出