timm
這是一個基於DINOv3框架的視覺Transformer模型,通過知識蒸餾技術從DINOv3 ViT-7B模型在LVD-1689M數據集上訓練得到。該模型專門用於圖像特徵編碼,能夠高效提取圖像特徵表示,適用於各種計算機視覺任務。
這是一個基於DINOv3架構的視覺Transformer模型,採用小型(Small)配置,在LVD-1689M數據集上通過知識蒸餾訓練而成。該模型專門用於高效提取圖像特徵,支持圖像分類、特徵圖提取和圖像嵌入等多種計算機視覺任務。
這是一個基於DINOv3架構的Vision Transformer圖像特徵編碼器,通過從7B參數的DINOv3 ViT模型在LVD-1689M數據集上進行知識蒸餾得到。該模型專門用於圖像特徵提取任務,具有強大的視覺表示能力。
pcuenq
基於視覺Transformer(ViT)的圖像特徵模型,採用自監督DINOv2方法在LVD-142M數據集上預訓練。
一種帶有寄存器的視覺Transformer(ViT)圖像特徵模型,採用自監督DINOv2方法在LVD-142M數據集上預訓練。
帶有寄存器的視覺變換器(ViT)圖像特徵模型,使用自監督的DINOv2方法在LVD-142M數據集上進行預訓練。
一個帶有寄存器的視覺Transformer(ViT)圖像特徵模型,採用自監督DINOv2方法在LVD-142M數據集上預訓練。
一個帶有寄存器的視覺變換器(ViT)圖像特徵模型,使用自監督的DINOv2方法在LVD-142M數據集上進行預訓練。
基於視覺Transformer(ViT)的圖像特徵模型,採用自監督DINOv2方法在LVD-142M數據集上預訓練
基於視覺Transformer(ViT)的自監督圖像特徵模型,採用DINOv2方法在LVD-142M數據集上預訓練,適用於圖像分類和特徵提取任務。
基於視覺Transformer(ViT)的巨型圖像特徵提取模型,採用自監督DINOv2方法在LVD-142M數據集上預訓練
基於Vision Transformer(ViT)的圖像特徵模型,採用自監督DINOv2方法在LVD-142M數據集上預訓練