Meta AI發佈Pixio圖像模型,通過改進MAE框架,證明簡單訓練路徑在深度估計和3D重建等任務中性能卓越,挑戰了MAE遜於DINOv2等複雜算法的傳統認知。
Meta發佈DINOv3 AI圖像處理模型,基於自監督學習,訓練17億張圖像,擁有70億參數。無需標註數據即可處理多種圖像任務,在衛星影像等數據稀缺領域潛力巨大。用戶只需少量適配即可應用於特定任務。
Meta推出DINOv3通用圖像處理AI模型,無需標註數據,基於17億張圖像自監督學習,擁有70億參數。該模型可處理多種圖像任務,無需調整,特別適用於標註數據有限的領域,如衛星圖像處理,在挑戰性基準測試中表現優異。
Meta AI開源新一代通用圖像識別模型DINOv3,採用自監督學習框架,無需人工標註即可實現卓越性能,突破傳統依賴大量標註數據的侷限,成爲AI視覺技術新里程碑。
PDF Dino 是一款 AI 驅動的 PDF 數據提取工具,可將 PDF 內容快速轉化為可操作的結構化數據。
面向開放世界的檢測與理解統一視覺模型
先進的開放世界目標檢測模型系列
DINOv2: 無監督學習的穩健視覺特徵
iszt
這是一個基於DINOv2預訓練的視覺變換器模型,專門針對視網膜彩色眼底照片進行優化。該模型在MEH AlzEye數據集子集上訓練,提供與Hugging Face Transformers兼容的格式,便於進行視網膜圖像特徵提取和下游醫學影像任務。
merve
這是一個基於DETR架構和DINOv3視覺骨幹網絡微調的車牌檢測模型,在評估集上取得了2.7008的損失值,專門用於車牌識別任務
timm
這是一個基於DINOv3框架的視覺Transformer模型,通過知識蒸餾技術從DINOv3 ViT-7B模型在LVD-1689M數據集上訓練得到。該模型專門用於圖像特徵編碼,能夠高效提取圖像特徵表示,適用於各種計算機視覺任務。
這是一個基於DINOv3架構的視覺Transformer模型,採用小型(Small)配置,在LVD-1689M數據集上通過知識蒸餾訓練而成。該模型專門用於高效提取圖像特徵,支持圖像分類、特徵圖提取和圖像嵌入等多種計算機視覺任務。
這是一個基於DINOv3架構的Vision Transformer圖像特徵編碼器,通過從7B參數的DINOv3 ViT模型在LVD-1689M數據集上進行知識蒸餾得到。該模型專門用於圖像特徵提取任務,具有強大的視覺表示能力。
facebook
DINOv3是一系列通用的視覺基礎模型,無需微調就能在廣泛的視覺任務中超越專門的先進技術。該模型能生成高質量的密集特徵,在各種視覺任務中表現出色,顯著超越了之前的自監督和弱監督基礎模型。
DINOv3是Meta AI開發的一系列通用視覺基礎模型,無需微調即可在廣泛的視覺任務中超越專門的先進模型。該模型採用自監督學習方式,生成高質量的密集特徵,在圖像分類、分割、深度估計等多種任務中表現出色。
DINOv3是Meta AI開發的多功能視覺基礎模型,無需微調就能在廣泛視覺任務中超越專業模型。該模型能生成高質量密集特徵,在各種視覺任務中表現出色,顯著超越了以往的自監督和弱監督基礎模型。
DINOv3是Meta AI開發的一系列通用視覺基礎模型,無需微調就能在多種視覺任務中超越專門的先進模型。該模型採用Vision Transformer架構,在16.89億張網絡圖像上預訓練,能生成高質量的密集特徵,在圖像分類、分割、檢索等任務中表現出色。
DINOv3是一系列通用的視覺基礎模型,無需微調就能在廣泛的視覺任務中超越專門的先進模型。該模型採用自監督學習方式,生成高質量的密集特徵,在各種視覺任務中表現出色,顯著超越了以往的自監督和弱監督基礎模型。
DINOv3是一系列通用的視覺基礎模型,無需微調就能在廣泛的視覺任務中超越專門的先進技術。該模型通過自監督學習生成高質量的密集特徵,在各種視覺任務中表現出色,顯著超越了以往的自監督和弱監督基礎模型。
Amoros
本模型是基於 facebook/dinov2-large 的微調版本,在特定任務上進行了優化訓練。
onnx-community
DINOv2-small 的 ONNX 格式版本,適用於視覺任務
基於80億MetaCLIP數據訓練的70億參數視覺Transformer模型,採用DINOv2自監督學習框架,無需語言監督
這是一個通過DINOv2自監督學習在20億網絡圖像上訓練的30億參數視覺Transformer模型,無需語言監督即可學習強大的視覺表徵。
基於DINOv2自監督學習框架訓練的20億參數視覺Transformer模型,使用輕過濾的網絡規模圖像數據(無需語言監督)。
這是一個通過DINOv2自監督學習在20億網絡圖像上訓練的10億參數視覺Transformer模型,無需語言監督即可學習視覺表示。
基於20億級嚴選MetaCLIP數據訓練的30億參數視覺Transformer模型,採用DINOv2自監督學習框架
30億參數的視覺Transformer模型,採用DINOv2自監督學習方法在輕過濾的網絡規模圖像數據上訓練,無需語言監督。
基於20億MetaCLIP數據的224分辨率視覺Transformer模型,採用DINOv2自監督學習方法訓練
DINO-X MCP是一個結合大型語言模型與DINO-X、Grounding DINO 1.6 API的項目,旨在實現細粒度物體檢測和圖像理解,支持自然語言驅動的視覺任務和自動化場景。
DINO-X MCP是一個通過DINO-X和Grounding DINO 1.6 API賦能大型語言模型進行細粒度目標檢測和圖像理解的項目。它能夠實現精確的對象定位、計數、屬性分析以及場景理解,支持自然語言驅動的視覺任務和工作流集成。