一種用於圖像和文本數據的先進機器學習模型,專注於數據質量和透明度。
facebook
MetaCLIP 2 (worldwide) 是一個基於Transformer架構的多語言零樣本圖像分類模型,支持全球範圍內的視覺語言理解任務,能夠實現無需訓練即可對圖像進行分類的能力。
基於80億MetaCLIP數據訓練的70億參數視覺Transformer模型,採用DINOv2自監督學習框架,無需語言監督
基於20億級嚴選MetaCLIP數據訓練的30億參數視覺Transformer模型,採用DINOv2自監督學習框架
基於20億MetaCLIP數據的224分辨率視覺Transformer模型,採用DINOv2自監督學習方法訓練
timm
基於MetaCLIP-2.5B數據集訓練的雙框架兼容視覺模型,支持OpenCLIP和timm框架
基於MetaCLIP-2.5B數據集訓練的雙用途視覺語言模型,支持零樣本圖像分類任務
基於MetaCLIP-2.5B數據集訓練的雙框架兼容視覺模型,支持零樣本圖像分類任務
基於MetaCLIP-400M數據集訓練的視覺變換器模型,支持零樣本圖像分類任務
基於MetaCLIP-400M數據集訓練的雙框架兼容視覺模型,支持OpenCLIP和timm框架
基於MetaCLIP-2.5B數據集訓練的視覺Transformer模型,兼容open_clip和timm框架
基於MetaCLIP-400M數據集訓練的視覺語言模型,支持零樣本圖像分類任務
MetaCLIP是基於CommonCrawl數據訓練的視覺-語言模型,用於構建圖像-文本共享嵌入空間。
MetaCLIP是基於CommonCrawl(CC)25億數據點訓練的大規模視覺-語言模型,解密了CLIP的數據篩選方法
MetaCLIP是基於CommonCrawl數據訓練的視覺-語言模型,用於構建圖像-文本共享嵌入空間
MetaCLIP是應用於CommonCrawl數據的CLIP框架實現,旨在揭示CLIP訓練數據篩選方法
MetaCLIP是基於CommonCrawl數據的視覺-語言模型,通過改進數據篩選方法提升CLIP模型性能
MetaCLIP是基於CommonCrawl(CC)25億數據點訓練的視覺-語言模型,用於構建圖像-文本共享嵌入空間。
MetaCLIP基礎版模型是基於CommonCrawl數據訓練的視覺-語言模型,用於構建圖像-文本共享嵌入空間。