谷歌Gemini Pro/Ultra訂閱用戶現可體驗Veo3.1視頻模型,新增“Ingredients to Video”功能:支持同時上傳三張參考圖,分別提取人物、場景與風格特徵,融合生成8秒1080p視頻。生成內容自帶SynthID隱形水印,支持網頁/移動端文本輸入一鍵生成。系統確保跨幀角色一致性與光影連貫,演示案例顯示三張自拍+賽博城市背景+油畫風格圖可合成“印象派未來街頭漫步”視頻。
VideoFrom3D框架革新3D圖形設計,通過融合圖像與視頻擴散模型,從幾何形狀、相機路徑和參考圖生成逼真且風格統一的3D場景視頻。無需依賴昂貴配對數據,簡化流程,助力設計師高效探索創意、快速產出高質量成果。核心在於互補擴散模型的創新應用。
小米大模型團隊宣佈開源最新一代多模態大模型 Xiaomi MiMo-VL-7B-2508,包含 RL 與 SFT 兩個版本。 官方數據顯示,新版模型在學科推理、文檔理解、圖形界面定位及視頻理解四項核心能力上全面刷新紀錄,其中 MMMU 基準首次突破70分大關,ChartQA 升至94.4,ScreenSpot-v2達92.5,VideoMME 提升至70.8。
OpenAI正祕密開發Sora視頻生成模型的升級版Sora2,服務器代碼中已出現相關引用。此前發佈的Sora雖熱度下降,但近期被微軟整合進Bing Video Creator重獲關注。與此同時,谷歌Veo3已向大學生免費開放,普通用戶也可通過Google Cloud體驗。兩大科技巨頭在生成式AI視頻領域的競爭日趨白熱化,Sora2的發佈或將重塑行業格局和內容創作方式。
使用 AI 將圖像轉換為視頻,免費在線生成。
一款強大的在線視頻換臉工具,使用簡單,效果真實。
免費視頻生成器,支持文本和圖像轉視頻,有多樣模型和效果
利用AI瞬間創建迷人的聖誕老人視頻,適合節日內容和個性化信息
Shawon16
這是一個基於VideoMAE-base架構在WLASL數據集上微調的視頻動作識別模型,專門針對手語識別任務進行優化,在評估集上達到48.22%的準確率。
這是一個基於VideoMAE-Base架構在WLASL數據集上微調的視頻動作識別模型。經過200輪訓練,在評估集上達到52.96%的前1準確率和79.88%的前5準確率,專門用於手語動作識別任務。
mitegvg
該模型是基於VideoMAE架構的暴力檢測模型,在Kinetics數據集預訓練的基礎上,針對暴力檢測任務進行了92輪微調。模型採用Vision Transformer架構,專門用於視頻內容分析,能夠識別視頻中的暴力行為。
OpenGVLab
VideoChat-R1_5-7B是基於Qwen2.5-VL-7B-Instruct構建的視頻文本交互模型,支持多模態任務,特別擅長視頻問答功能。該模型通過強化微調增強時空感知能力,並採用迭代感知機制來強化多模態推理。
beingbatman
本模型是基於VideoMAE-Large架構在Kinetics數據集上預訓練後,在未知數據集上進行微調的視頻理解模型。在評估集上取得了85.86%的準確率和0.7987的損失值,表現出優秀的視頻分類能力。
TIGER-Lab
本項目基於Qwen2.5-VL-7B-Instruct模型,專注於視覺問答任務,能夠精準回答圖像相關問題,具備較高的準確性和相關性。這是一個多模態視覺語言模型,支持圖像理解和基於圖像的問答交互。
Qwen2.5-VL-7B-Instruct是阿里巴巴通義千問團隊開發的多模態視覺語言模型,基於70億參數規模,專門針對視覺問答任務進行優化訓練。該模型能夠理解和分析圖像內容,並生成準確的自然語言回答。
NiklasTUM
基於MCG-NJU/videomae-base微調的視頻分析模型,用於欺騙檢測任務,準確率達70.37%
VideoChat-R1_7B_caption 是一個基於 Qwen2-VL-7B-Instruct 的多模態視頻文本生成模型,專注於視頻內容理解和描述生成。
cocovani
基於MCG-NJU/videomae-base微調的視頻理解模型,在評估集上表現一般(準確率50%)
VideoChat-R1_7B 是一個基於 Qwen2.5-VL-7B-Instruct 的多模態視頻理解模型,能夠處理視頻和文本輸入,生成文本輸出。
VideoChat-R1-thinking_7B 是一個基於 Qwen2.5-VL-7B-Instruct 的多模態模型,專注於視頻文本轉文本任務。
EloiseInacio
基於MCG-NJU/videomae-base微調的視頻理解模型,在未知數據集上訓練,準確率為11.1%
基於MCG-NJU/videomae-base微調的視頻理解模型,在未知數據集上進行了訓練
d2o2ji
該模型是基於MCG-NJU/videomae-base-finetuned-kinetics微調的版本,主要用於視頻理解任務,在評估集上取得了91.38%的準確率。
基於MCG-NJU/videomae-base-finetuned-kinetics微調的視頻理解模型,在評估集上準確率達91.23%
cccchristopher
基於VideoMAE基礎模型在UCF101子集上微調的視頻分類模型
基於VideoMAE架構的視頻動作識別模型,在Kinetics數據集上微調,準確率達92.25%
基於MCG-NJU/videomae-base-finetuned-kinetics微調的視頻理解模型,在評估集上準確率達90.97%
Video-R1
Video-R1是基於Qwen2.5-7B-Instruct開發的多模態大語言模型,專門針對視頻推理任務進行優化。通過提出T-GRPO算法和構建高質量視頻推理數據集,顯著提升了模型在時間建模和視頻理解方面的能力。
Video Editor MCP是一個視頻編輯服務器,提供視頻上傳、搜索、生成和編輯功能,支持通過LLM和Video Jungle平臺進行操作。
開源短視頻自動生成工具,整合文本轉語音、自動字幕、背景視頻和音樂,從簡單文本輸入創建專業短視頻。
一個強大的視頻編輯MCP服務器,提供視頻和音頻的全面編輯功能,支持操作鏈式處理和無縫集成到MCP客戶端。
一個基於FFmpeg的視頻編輯MCP服務器,支持通過自然語言命令執行視頻剪輯、合併、格式轉換等操作
TikTok視頻搜索與元數據提取服務
一個基於FFmpeg的視頻編輯MCP服務器,支持通過自然語言指令執行視頻剪輯、合併、格式轉換等操作,並提供即時進度跟蹤和錯誤處理。
MCP Video Digest是一個視頻內容處理服務,支持從多個平臺提取音頻並轉換為文本,提供多種轉錄服務選擇。
一個基於OpenCV的MCP服務器,提供網絡攝像頭控制和圖像捕捉功能
一個基於TypeScript的MCP服務器,提供AI圖像和視頻生成功能,需GPT4O Image Generator的API密鑰支持。
MCP Video Digest 是一個視頻內容處理服務,支持從多個平臺提取音頻並轉換為文本,提供多種轉錄服務選擇,具有靈活配置和高效處理能力。
VideoCutter是一款集成視頻、音頻、圖像處理的專業多媒體工具,支持AI智能編輯和MCP協議,提供一站式智能化創作解決方案。
一個基於MCP協議的高精度視頻截圖工具,支持批量截圖和視頻信息提取
基於AI MCP協議的專業視頻剪輯工具,提供精準剪輯、智能合併、靈活分割等核心功能,支持多格式和批量處理,無需手動安裝FFmpeg。
這是一個基於Next.js框架創建的項目,使用create-next-app初始化,支持多種包管理器運行開發服務器,並集成了Vercel的Geist字體優化。項目提供Next.js學習資源和Vercel部署指南。
基於MCP協議的多平臺視頻下載服務端,支持1000+視頻平臺,提供雙模式運行和即時進度跟蹤
MCP API是基於模型上下文協議的Sora2視頻水印去除服務,可快速集成到Claude Desktop、OpenAI等主流MCP兼容工具中,通過簡單API密鑰認證實現視頻水印智能去除。
一個MCP服務器實現,提供視頻轉錄功能(如YouTube、Facebook、Tiktok等),可與LLMs集成。
Video Indexer MCP服務器,提供與Video Indexer API交互的工具和資源,支持從視頻洞察生成提示內容並獲取。
VideoLingo是一款集視頻翻譯、本地化和配音於一體的工具,旨在生成Netflix品質的字幕。它消除了生硬的機器翻譯和多行字幕,同時提供高質量的配音,實現跨語言的知識共享。
基於MCP協議的專業視頻信息分析工具,提供多維度視頻文件分析能力,支持JSON、TEXT、Markdown格式輸出