Appleが2つの視覚言語モデルFastVLMとMobileCLIP2をオープンソース化。効率的なローカル実行が可能で、エッジデバイスに最適。FastVLMは85倍高速化し、iPhoneなどでの視覚言語処理を革新。....
apple
MobileCLIP-B (LT)はApple社が開発した効率的な画像テキストモデルで、マルチモーダル強化トレーニングにより高速なゼロショット画像分類を実現し、同類モデルよりも優れた性能を発揮します。
MobileCLIP-Bは効率的な画像テキストモデルで、マルチモーダル強化トレーニングにより高速推論を実現し、ゼロショット画像分類タスクで優れた性能を発揮します。
MobileCLIP-S2は、マルチモーダル強化トレーニングにより高速なゼロショット画像分類を実現する効率的な画像テキストモデルです。
MobileCLIP-S1は効率的な画像テキストモデルで、マルチモーダル強化学習により高速なゼロショット画像分類を実現します。
MobileCLIP-S2は効率的な画像テキストモデルで、マルチモーダル強化トレーニングにより高速推論を実現し、コンパクトなサイズを維持しながら優れたゼロショット性能を提供します。
MobileCLIP-S0は効率的な画像テキストモデルで、マルチモーダル強化トレーニングにより実現され、高性能を維持しながら速度とサイズ効率を大幅に向上させています。
Xenova
MobileCLIP S0は、Appleのml-mobileclipプロジェクトのONNX対応バージョンで、モバイルデバイス向けに最適化されたゼロショット画像分類モデルです。
MobileViTv2アーキテクチャとDeepLabV3ヘッドを組み合わせたセマンティックセグメンテーションモデルで、PASCAL VOCデータセットで512x512解像度で事前学習済み
MobileViTv2はMobileViTの第2世代バージョンで、分離可能な自己注意メカニズムにより改良され、画像分類タスクに適しています。
MobileViTは、軽量で低遅延の視覚Transformerモデルで、CNNとTransformerの利点を組み合わせており、モバイルデバイスに適しています。
MobileViTは、軽量で低遅延の視覚Transformerモデルで、CNNとTransformerの利点を組み合わせ、モバイル端末に適しています。
MobileViTは、軽量で低遅延の視覚Transformerモデルであり、CNNとTransformerの利点を組み合わせ、モバイル端末に適しています。