最近,Meta AI 團隊帶來了 LongVU,這是一種新穎的時空自適應壓縮機制,旨在提升長視頻的語言理解能力。傳統的多模態大型語言模型(MLLMs)在處理長視頻時面臨着上下文長度的限制,而 LongVU 正是爲了解決這一難題而誕生。LongVU 的工作原理主要通過過濾重複幀、跨幀token壓縮等方法來高效使用上下文長度,能夠在保持視頻視覺細節的同時減少視頻中的冗餘信息。具體來說,團隊使用 DINOv2的特徵來剔除那些高度相似的冗餘幀。接着,通過文本引導的跨模態查詢,實現了選擇性地減少幀特徵
研究人員最近開發了一種名爲 REPA 的新技術,旨在加速 AI 圖像生成模型的訓練速度。REPA 代表 REPresentation Alignment,通過整合來自 DINOv2等模型的高質量視覺表示來提高訓練速度和輸出質量。傳統的擴散模型通常會創建嘈雜的圖像,然後逐漸將其細化爲乾淨的圖像。REPA 增加了一個步驟,將在此去噪過程中生成的表示與來自 DINOv2的表示進行比較。然後,它將擴散模型的隱藏狀態投影到 DINOv2的表示上。研究人員表示,REPA 不僅提高了訓練效率,還提高了生成的圖像質量。使用各種擴散模型架構
{"Meta 以 Apache2.0 許可證發佈計算機視覺模型 DINOv2 開源版本。","DINOv2 可用於各種計算機視覺任務,是靈活通用的工具。","Meta 計劃將 DINOv2 與大規模語言模型結合,創造更強大的圖像分析系統。"}
DINOv2: 無監督學習的穩健視覺特徵
iszt
這是一個基於DINOv2預訓練的視覺變換器模型,專門針對視網膜彩色眼底照片進行優化。該模型在MEH AlzEye數據集子集上訓練,提供與Hugging Face Transformers兼容的格式,便於進行視網膜圖像特徵提取和下游醫學影像任務。
Amoros
本模型是基於 facebook/dinov2-large 的微調版本,在特定任務上進行了優化訓練。
onnx-community
DINOv2-small 的 ONNX 格式版本,適用於視覺任務
facebook
基於80億MetaCLIP數據訓練的70億參數視覺Transformer模型,採用DINOv2自監督學習框架,無需語言監督
這是一個通過DINOv2自監督學習在20億網絡圖像上訓練的30億參數視覺Transformer模型,無需語言監督即可學習強大的視覺表徵。
基於DINOv2自監督學習框架訓練的20億參數視覺Transformer模型,使用輕過濾的網絡規模圖像數據(無需語言監督)。
這是一個通過DINOv2自監督學習在20億網絡圖像上訓練的10億參數視覺Transformer模型,無需語言監督即可學習視覺表示。
基於20億級嚴選MetaCLIP數據訓練的30億參數視覺Transformer模型,採用DINOv2自監督學習框架
30億參數的視覺Transformer模型,採用DINOv2自監督學習方法在輕過濾的網絡規模圖像數據上訓練,無需語言監督。
基於20億MetaCLIP數據的224分辨率視覺Transformer模型,採用DINOv2自監督學習方法訓練
Kar1hik
該模型基於DINOv2架構微調,用於皮膚病變圖像的疾病分類
這是facebook/dinov2-base模型的ONNX格式版本,適用於計算機視覺任務。
AsmaaElnagger
基於 Facebook DINOv2 基礎模型微調的圖像分類模型,專門用於糖尿病視網膜病變檢測,在評估集上準確率達 96.8%。
nguyenkhoa
基於DINOv2架構的活體檢測模型,用於區分真實人臉與偽造攻擊,在評估集上達到99.32%的準確率。
pcuenq
基於視覺Transformer(ViT)的圖像特徵模型,採用自監督DINOv2方法在LVD-142M數據集上預訓練。
基於Transformer架構的視覺變換器模型,通過DINOv2方法訓練並引入寄存器機制,解決了傳統ViT模型的偽影問題
基於DINOv2訓練的視覺Transformer模型,通過添加寄存器令牌改進注意力機制,消除偽影並提升性能
這是一個基於DINOv2的視覺Transformer模型,通過添加寄存器標記改進了注意力機制,用於無監督圖像特徵提取。
基於DINOv2訓練的視覺Transformer模型,通過添加寄存器標記優化注意力機制,提升圖像特徵提取性能
基於DINOv2訓練的視覺Transformer模型,通過添加寄存器標記優化注意力機制,提升特徵提取能力