Meta AI发布Pixio图像模型,通过改进MAE框架,证明简单训练路径在深度估计和3D重建等任务中性能卓越,挑战了MAE逊于DINOv2等复杂算法的传统认知。
Meta发布DINOv3 AI图像处理模型,基于自监督学习,训练17亿张图像,拥有70亿参数。无需标注数据即可处理多种图像任务,在卫星影像等数据稀缺领域潜力巨大。用户只需少量适配即可应用于特定任务。
Meta推出DINOv3通用图像处理AI模型,无需标注数据,基于17亿张图像自监督学习,拥有70亿参数。该模型可处理多种图像任务,无需调整,特别适用于标注数据有限的领域,如卫星图像处理,在挑战性基准测试中表现优异。
Meta AI开源新一代通用图像识别模型DINOv3,采用自监督学习框架,无需人工标注即可实现卓越性能,突破传统依赖大量标注数据的局限,成为AI视觉技术新里程碑。
PDF Dino 是一款 AI 驱动的 PDF 数据提取工具,可将 PDF 内容快速转化为可操作的结构化数据。
面向开放世界的检测与理解统一视觉模型
先进的开放世界目标检测模型系列
DINOv2: 无监督学习的稳健视觉特征
iszt
这是一个基于DINOv2预训练的视觉变换器模型,专门针对视网膜彩色眼底照片进行优化。该模型在MEH AlzEye数据集子集上训练,提供与Hugging Face Transformers兼容的格式,便于进行视网膜图像特征提取和下游医学影像任务。
merve
这是一个基于DETR架构和DINOv3视觉骨干网络微调的车牌检测模型,在评估集上取得了2.7008的损失值,专门用于车牌识别任务
timm
这是一个基于DINOv3框架的视觉Transformer模型,通过知识蒸馏技术从DINOv3 ViT-7B模型在LVD-1689M数据集上训练得到。该模型专门用于图像特征编码,能够高效提取图像特征表示,适用于各种计算机视觉任务。
这是一个基于DINOv3架构的视觉Transformer模型,采用小型(Small)配置,在LVD-1689M数据集上通过知识蒸馏训练而成。该模型专门用于高效提取图像特征,支持图像分类、特征图提取和图像嵌入等多种计算机视觉任务。
这是一个基于DINOv3架构的Vision Transformer图像特征编码器,通过从7B参数的DINOv3 ViT模型在LVD-1689M数据集上进行知识蒸馏得到。该模型专门用于图像特征提取任务,具有强大的视觉表示能力。
facebook
DINOv3是一系列通用的视觉基础模型,无需微调就能在广泛的视觉任务中超越专门的先进技术。该模型能生成高质量的密集特征,在各种视觉任务中表现出色,显著超越了之前的自监督和弱监督基础模型。
DINOv3是Meta AI开发的一系列通用视觉基础模型,无需微调即可在广泛的视觉任务中超越专门的先进模型。该模型采用自监督学习方式,生成高质量的密集特征,在图像分类、分割、深度估计等多种任务中表现出色。
DINOv3是Meta AI开发的多功能视觉基础模型,无需微调就能在广泛视觉任务中超越专业模型。该模型能生成高质量密集特征,在各种视觉任务中表现出色,显著超越了以往的自监督和弱监督基础模型。
DINOv3是Meta AI开发的一系列通用视觉基础模型,无需微调就能在多种视觉任务中超越专门的先进模型。该模型采用Vision Transformer架构,在16.89亿张网络图像上预训练,能生成高质量的密集特征,在图像分类、分割、检索等任务中表现出色。
DINOv3是一系列通用的视觉基础模型,无需微调就能在广泛的视觉任务中超越专门的先进模型。该模型采用自监督学习方式,生成高质量的密集特征,在各种视觉任务中表现出色,显著超越了以往的自监督和弱监督基础模型。
DINOv3是一系列通用的视觉基础模型,无需微调就能在广泛的视觉任务中超越专门的先进技术。该模型通过自监督学习生成高质量的密集特征,在各种视觉任务中表现出色,显著超越了以往的自监督和弱监督基础模型。
Amoros
本模型是基于 facebook/dinov2-large 的微调版本,在特定任务上进行了优化训练。
onnx-community
DINOv2-small 的 ONNX 格式版本,适用于视觉任务
基于80亿MetaCLIP数据训练的70亿参数视觉Transformer模型,采用DINOv2自监督学习框架,无需语言监督
这是一个通过DINOv2自监督学习在20亿网络图像上训练的10亿参数视觉Transformer模型,无需语言监督即可学习视觉表示。
基于DINOv2自监督学习框架训练的20亿参数视觉Transformer模型,使用轻过滤的网络规模图像数据(无需语言监督)。
这是一个通过DINOv2自监督学习在20亿网络图像上训练的30亿参数视觉Transformer模型,无需语言监督即可学习强大的视觉表征。
基于20亿级严选MetaCLIP数据训练的30亿参数视觉Transformer模型,采用DINOv2自监督学习框架
30亿参数的视觉Transformer模型,采用DINOv2自监督学习方法在轻过滤的网络规模图像数据上训练,无需语言监督。
基于20亿MetaCLIP数据的224分辨率视觉Transformer模型,采用DINOv2自监督学习方法训练
DINO-X MCP是一个通过DINO-X和Grounding DINO 1.6 API赋能大型语言模型进行细粒度目标检测和图像理解的项目。它能够实现精确的对象定位、计数、属性分析以及场景理解,支持自然语言驱动的视觉任务和工作流集成。
DINO-X MCP是一个结合大型语言模型与DINO-X、Grounding DINO 1.6 API的项目,旨在实现细粒度物体检测和图像理解,支持自然语言驱动的视觉任务和自动化场景。