InternLMがオープンソースの軽量マルチモーダル推論モデル「Intern-S1-mini」を発表。8BパラメータでQwen3-8Bと言語モデルと0.3BのビジョンエンコーダーInternViTを統合。5兆トークンの事前学習(うち2.5兆は科学分野)により科学タスクに優れる。....
InternViT-300M-448pxをベースとした強化版で、視覚特徴抽出能力を向上させています。
InternViT-6B-448px-V1-5をベースとした強化版ビジョンモデル
Baidu
-
入力トークン/百万
出力トークン/百万
32
コンテキスト長
gwkrsrch2
これはHugging Faceモデルセンターに公開されたTransformerモデルで、モデルカードは自動生成されています。具体的な情報が不足しているため、詳細なモデル紹介を提供することができません。
FriendliAI
InternVL3-1BはInternVL3シリーズの10億パラメータ規模のマルチモーダル大規模言語モデルで、InternViTビジョンエンコーダーとQwen2.5言語モデルを統合し、優れたマルチモーダル知覚と推論能力を備えています。
OpenGVLab
InternViT-6B-448px-V2_5はInternViT-6B-448px-V1-5の大幅なアップグレード版で、ViTインクリメンタル学習とNTP損失により視覚特徴抽出能力を向上させ、特に多言語OCRデータや数学図表などの複雑なシーンに優れています。
InternViT-300M-448px-V2_5はInternViT-300M-448pxの大幅なアップグレード版で、ViTの増分学習とNTP損失により視覚的特徴抽出能力が向上し、特に多言語OCRデータや数学的図表などの複雑なシーンに優れています。
timm
InternViT-300MはOpenGVLabチームによって開発された視覚Transformerモデルで、InternViT-6Bから蒸留された事前学習モデルであり、様々な視覚タスクをサポートします。
InternViT-300M-448pxは、InternViT-6B-448px-V1-5から知識蒸留によって開発された効率的な視覚基盤モデルで、448×448の動的入力解像度を備え、1から40のパッチ処理をサポートします。
InternViT-6B-448px-V1-5はInternViT-6B-448px-V1-2をファインチューニングした視覚基盤モデルで、強力なロバスト性、OCR能力、高解像度処理能力を備えています。
InternViT-6B-448px-V1-2は、5540万パラメータを持つ視覚基盤モデルで、448x448ピクセルの画像処理をサポートしています。
InternViT-6B-448px-V1-0は視覚基盤モデルで、画像特徴抽出に特化し、448x448解像度をサポート、OCR能力と中国語会話サポートを強化しています。
InternViT-6B-224px は視覚基盤モデルで、画像特徴抽出に特化しており、5903百万のパラメータを持ち、224x224ピクセルの画像入力をサポートします。