一种用于图像和文本数据的先进机器学习模型,专注于数据质量和透明度。
facebook
MetaCLIP 2 (worldwide) 是一个基于Transformer架构的多语言零样本图像分类模型,支持全球范围内的视觉语言理解任务,能够实现无需训练即可对图像进行分类的能力。
基于80亿MetaCLIP数据训练的70亿参数视觉Transformer模型,采用DINOv2自监督学习框架,无需语言监督
基于20亿级严选MetaCLIP数据训练的30亿参数视觉Transformer模型,采用DINOv2自监督学习框架
基于20亿MetaCLIP数据的224分辨率视觉Transformer模型,采用DINOv2自监督学习方法训练
timm
基于MetaCLIP-2.5B数据集训练的双框架兼容视觉模型,支持OpenCLIP和timm框架
基于MetaCLIP-2.5B数据集训练的双用途视觉语言模型,支持零样本图像分类任务
基于MetaCLIP-2.5B数据集训练的双框架兼容视觉模型,支持零样本图像分类任务
基于MetaCLIP-400M数据集训练的视觉变换器模型,支持零样本图像分类任务
基于MetaCLIP-400M数据集训练的双框架兼容视觉模型,支持OpenCLIP和timm框架
基于MetaCLIP-2.5B数据集训练的视觉Transformer模型,兼容open_clip和timm框架
基于MetaCLIP-400M数据集训练的视觉语言模型,支持零样本图像分类任务
MetaCLIP是基于CommonCrawl数据训练的视觉-语言模型,用于构建图像-文本共享嵌入空间。
MetaCLIP是基于CommonCrawl(CC)25亿数据点训练的大规模视觉-语言模型,解密了CLIP的数据筛选方法
MetaCLIP是基于CommonCrawl数据训练的视觉-语言模型,用于构建图像-文本共享嵌入空间
MetaCLIP是应用于CommonCrawl数据的CLIP框架实现,旨在揭示CLIP训练数据筛选方法
MetaCLIP是基于CommonCrawl数据的视觉-语言模型,通过改进数据筛选方法提升CLIP模型性能
MetaCLIP是基于CommonCrawl(CC)25亿数据点训练的视觉-语言模型,用于构建图像-文本共享嵌入空间。
MetaCLIP基础版模型是基于CommonCrawl数据训练的视觉-语言模型,用于构建图像-文本共享嵌入空间。