最近,Meta AI 团队带来了 LongVU,这是一种新颖的时空自适应压缩机制,旨在提升长视频的语言理解能力。传统的多模态大型语言模型(MLLMs)在处理长视频时面临着上下文长度的限制,而 LongVU 正是为了解决这一难题而诞生。LongVU 的工作原理主要通过过滤重复帧、跨帧token压缩等方法来高效使用上下文长度,能够在保持视频视觉细节的同时减少视频中的冗余信息。具体来说,团队使用 DINOv2的特征来剔除那些高度相似的冗余帧。接着,通过文本引导的跨模态查询,实现了选择性地减少帧特征
研究人员最近开发了一种名为 REPA 的新技术,旨在加速 AI 图像生成模型的训练速度。REPA 代表 REPresentation Alignment,通过整合来自 DINOv2等模型的高质量视觉表示来提高训练速度和输出质量。传统的扩散模型通常会创建嘈杂的图像,然后逐渐将其细化为干净的图像。REPA 增加了一个步骤,将在此去噪过程中生成的表示与来自 DINOv2的表示进行比较。然后,它将扩散模型的隐藏状态投影到 DINOv2的表示上。研究人员表示,REPA 不仅提高了训练效率,还提高了生成的图像质量。使用各种扩散模型架构
{"Meta 以 Apache2.0 许可证发布计算机视觉模型 DINOv2 开源版本。","DINOv2 可用于各种计算机视觉任务,是灵活通用的工具。","Meta 计划将 DINOv2 与大规模语言模型结合,创造更强大的图像分析系统。"}
DINOv2: 无监督学习的稳健视觉特征
iszt
这是一个基于DINOv2预训练的视觉变换器模型,专门针对视网膜彩色眼底照片进行优化。该模型在MEH AlzEye数据集子集上训练,提供与Hugging Face Transformers兼容的格式,便于进行视网膜图像特征提取和下游医学影像任务。
Amoros
本模型是基于 facebook/dinov2-large 的微调版本,在特定任务上进行了优化训练。
onnx-community
DINOv2-small 的 ONNX 格式版本,适用于视觉任务
facebook
基于80亿MetaCLIP数据训练的70亿参数视觉Transformer模型,采用DINOv2自监督学习框架,无需语言监督
这是一个通过DINOv2自监督学习在20亿网络图像上训练的10亿参数视觉Transformer模型,无需语言监督即可学习视觉表示。
基于DINOv2自监督学习框架训练的20亿参数视觉Transformer模型,使用轻过滤的网络规模图像数据(无需语言监督)。
这是一个通过DINOv2自监督学习在20亿网络图像上训练的30亿参数视觉Transformer模型,无需语言监督即可学习强大的视觉表征。
基于20亿级严选MetaCLIP数据训练的30亿参数视觉Transformer模型,采用DINOv2自监督学习框架
基于20亿MetaCLIP数据的224分辨率视觉Transformer模型,采用DINOv2自监督学习方法训练
30亿参数的视觉Transformer模型,采用DINOv2自监督学习方法在轻过滤的网络规模图像数据上训练,无需语言监督。
Kar1hik
该模型基于DINOv2架构微调,用于皮肤病变图像的疾病分类
这是facebook/dinov2-base模型的ONNX格式版本,适用于计算机视觉任务。
AsmaaElnagger
基于 Facebook DINOv2 基础模型微调的图像分类模型,专门用于糖尿病视网膜病变检测,在评估集上准确率达 96.8%。
nguyenkhoa
基于DINOv2架构的活体检测模型,用于区分真实人脸与伪造攻击,在评估集上达到99.32%的准确率。
pcuenq
基于视觉Transformer(ViT)的图像特征模型,采用自监督DINOv2方法在LVD-142M数据集上预训练。
基于Transformer架构的视觉变换器模型,通过DINOv2方法训练并引入寄存器机制,解决了传统ViT模型的伪影问题
基于DINOv2训练的视觉Transformer模型,通过添加寄存器令牌改进注意力机制,消除伪影并提升性能
这是一个基于DINOv2的视觉Transformer模型,通过添加寄存器标记改进了注意力机制,用于无监督图像特征提取。
基于DINOv2训练的视觉Transformer模型,通过添加寄存器标记优化注意力机制,提升图像特征提取性能
基于DINOv2训练的视觉Transformer模型,通过添加寄存器标记优化注意力机制,提升特征提取能力