データ品質と透明性に重点を置いた、画像とテキストデータのための高度な機械学習モデルです。
facebook
MetaCLIP 2 (worldwide) は、Transformerアーキテクチャに基づく多言語ゼロショット画像分類モデルで、世界中のビジュアル言語理解タスクをサポートし、トレーニングなしで画像を分類する能力を実現します。
80億のMetaCLIPデータで訓練された70億パラメータの視覚Transformerモデル、DINOv2自己監視学習フレームワークを採用、言語監視不要
20億MetaCLIPデータに基づく224解像度の視覚Transformerモデル、DINOv2自己教師あり学習手法でトレーニング
20億規模の厳選MetaCLIPデータで訓練された30億パラメータの視覚Transformerモデル、DINOv2自己教師あり学習フレームワークを採用
timm
MetaCLIP-2.5Bデータセットで訓練されたデュアルフレームワーク互換の視覚モデルで、OpenCLIPとtimmフレームワークをサポート
MetaCLIP-2.5Bデータセットで訓練されたデュアルユースの視覚言語モデル、ゼロショット画像分類タスクをサポート
MetaCLIP-2.5Bデータセットでトレーニングされたデュアルフレームワーク互換の視覚モデルで、ゼロショット画像分類タスクをサポート
MetaCLIP-400Mデータセットで訓練された視覚トランスフォーマーモデル、ゼロショット画像分類タスクをサポート
MetaCLIP-400Mデータセットで訓練されたデュアルフレームワーク互換の視覚モデルで、OpenCLIPとtimmフレームワークをサポート
MetaCLIP-2.5Bデータセットで訓練されたVision Transformerモデルで、open_clipとtimmフレームワークと互換性があります
MetaCLIP-400Mデータセットで訓練された視覚言語モデルで、ゼロショット画像分類タスクをサポート
MetaCLIPはCommonCrawlデータでトレーニングされた視覚-言語モデルで、画像とテキストの共有埋め込み空間を構築します。
MetaCLIPはCommonCrawl(CC)25億データポイントでトレーニングされた大規模視覚-言語モデルで、CLIPのデータ選別方法を解明
MetaCLIPはCommonCrawlデータで訓練された視覚-言語モデルで、画像-テキスト共有埋め込み空間を構築するために使用されます
MetaCLIPはCommonCrawlデータに適用されるCLIPフレームワークの実装で、CLIP訓練データの選択方法を明らかにすることを目的としています。
MetaCLIPはCommonCrawlデータに基づく視覚-言語モデルで、データ選別方法の改善によりCLIPモデルの性能を向上
MetaCLIPはCommonCrawl(CC)の25億データポイントで訓練された視覚-言語モデルで、画像-テキスト共有埋め込み空間を構築します。
MetaCLIP基本モデルはCommonCrawlデータでトレーニングされた視覚-言語モデルで、画像-テキスト共有埋め込み空間を構築します。