timm
これはDINOv3フレームワークに基づくビジュアルTransformerモデルで、知識蒸留技術を通じてDINOv3 ViT - 7BモデルからLVD - 1689Mデータセットで訓練されたものです。このモデルは画像特徴エンコーディングに特化しており、画像の特徴表現を効率的に抽出することができ、様々なコンピュータビジョンタスクに適しています。
これはDINOv3アーキテクチャに基づくビジョンTransformerモデルで、小型(Small)構成を採用し、LVD - 1689Mデータセット上で知識蒸留により訓練されました。このモデルは画像特徴の効率的な抽出に特化しており、画像分類、特徴マップ抽出、画像埋め込みなどの様々なコンピュータビジョンタスクをサポートします。
これはDINOv3アーキテクチャに基づくVision Transformer画像特徴エンコーダで、7BパラメータのDINOv3 ViTモデルからLVD-1689Mデータセットで知識蒸留を行って得られました。このモデルは画像特徴抽出タスクに特化しており、強力なビジュアル表現能力を持っています。
pcuenq
視覚Transformer(ViT)ベースの画像特徴モデルで、自己教師ありDINOv2手法を用いてLVD-142Mデータセットで事前学習済み。
レジスタを備えた視覚Transformer(ViT)画像特徴モデルで、自己教師ありDINOv2手法を用いてLVD-142Mデータセットで事前学習されています。
レジスタ付き視覚トランスフォーマー(ViT)画像特徴モデル、自己教師ありのDINOv2手法でLVD-142Mデータセット上で事前学習済み。
レジスタを備えた視覚トランスフォーマー(ViT)画像特徴モデルで、自己教師ありのDINOv2手法を用いてLVD-142Mデータセットで事前学習されています。
視覚Transformer(ViT)ベースの画像特徴モデル、自己教師ありDINOv2手法でLVD-142Mデータセット上で事前学習
視覚Transformer(ViT)ベースの自己教師あり画像特徴モデルで、DINOv2手法を用いてLVD-142Mデータセットで事前学習されており、画像分類や特徴抽出タスクに適しています。
Vision Transformer(ViT)ベースの巨大画像特徴抽出モデル、自己教師ありDINOv2手法でLVD-142Mデータセット上で事前学習
Vision Transformer(ViT)ベースの画像特徴モデル、自己教師ありDINOv2手法でLVD-142Mデータセット上で事前学習済み