OpenGVLabは、InternVL3シリーズモデルのオープンソースリリースを発表しました。これは、マルチモーダル大規模言語モデル(MLLM)分野における新たなマイルストーンとなります。InternVL3シリーズは、1Bから78Bまでの7つのサイズからなるモデル群で、テキスト、画像、ビデオなどの様々な情報を同時に処理でき、優れた総合性能を示しています。
AI画像言語モデル。画像分析と説明を提供します。
OpenGVLab
VideoChat-R1_5-7BはQwen2.5-VL-7B-Instructをベースに構築されたビデオテキストインタラクションモデルで、マルチモーダルタスクをサポートし、特にビデオ質問応答機能に長けています。このモデルは強化微調整により時空間知覚能力を強化し、反復知覚メカニズムを採用してマルチモーダル推論を強化しています。
InternVL3_5-38Bは、オープンソースのマルチモーダルモデルInternVL3.5シリーズの一員で、機能性、推論能力、推論効率の面で著しい進歩を遂げています。多言語をサポートし、画像テキストからテキストへのタスクに適用でき、カスケード強化学習フレームワークとビジュアル解像度ルーター技術を用いて性能を最適化しています。
InternVL3.5-4Bはオープンソースのマルチモーダルモデルシリーズの中規模バージョンで、汎用性、推論能力、推論効率の面で顕著な進歩を遂げ、GUIインタラクションなどの新機能をサポートしています。このモデルはカスケード強化学習フレームワークと視覚解像度ルーター技術を採用し、効率的なマルチモーダル理解と推論を実現しています。
InternVL3.5はオープンソースのマルチモーダルモデルファミリーの新メンバーで、InternVLシリーズの汎用性、推論能力、推論効率を大幅に向上させ、GUIインタラクションなどの新機能をサポートし、オープンソースのマルチモーダル大規模言語モデルの先進水準に達しています。
InternVL3.5-4Bはオープンソースのマルチモーダルモデルシリーズの中規模版で、4.7億のパラメータを含み、先進的なカスケード強化学習フレームワークとビジュアル解像度ルーター技術を採用しており、マルチモーダル推論能力と効率を大幅に向上させています。
InternVL3.5-14BはInternVLシリーズのオープンソースのマルチモーダルモデルで、汎用性、推論能力、推論効率が大幅に向上し、GUIインタラクションなどの新機能をサポートし、商用モデルとの性能差を縮小しました。
InternVL3.5-1BはInternVLシリーズのオープンソースマルチモーダルモデルで、パラメータ数は11億で、そのうちビジュアルパラメータが3億、言語パラメータが8億を含んでいます。このモデルは汎用性、推論能力、推論効率を大幅に向上させ、GUIインタラクションなどの新機能をサポートしています。
brandonbeiler
これはOpenGVLab/InternVL3_5-8Bのfp8動的(w8a8)量子化バージョンで、vLLMの高性能推論に対して最適化されています。FP8動的量子化技術を採用し、ビジュアル理解能力を維持しながら、メモリ使用量を大幅に削減し、推論速度を向上させます。
これはOpenGVLab/InternVL3_5-30B-A3Bのfp8動的(w8a8)量子化バージョンで、vLLM高性能推論に最適化されており、FP8動的量子化技術を採用しており、メモリ使用量が約50%削減され、推論速度が大幅に向上します。
KnutJaegersberg
InternVL3_5-38B-Q8_0-GGUFは、OpenGVLabのInternVL3_5-38Bモデルをllama.cppを使って変換したGGUF量子化バージョンです。このモデルは38Bパラメータのマルチモーダル視覚言語モデルで、画像とテキストの連合理解と生成をサポートし、推論効率を最適化するためにQ8_0量子化形式を採用しています。
lmstudio-community
これはOpenGVLabのInternVL3_5 14Bモデルの量子化バージョンで、画像テキストからテキストへの変換タスクをサポートし、量子化技術によりモデルの実行効率を向上させ、関連アプリケーションにより効率的な解決策を提供します。
これはOpenGVLabが公開したInternVL3_5 8BモデルのGGUF量子化バージョンで、画像テキストからテキストへの変換タスクに特化しており、量子化技術によりより効率的な推論ソリューションを提供します。
ConfidentialMind
これはOpenGVLab/InternVL3-38BのFP8静的量子化バージョンで、vLLMを使用した高性能推論に最適化されており、ビジュアル言語タスクで約2倍の高速化を実現し、同時に精度の損失は極めて少ないです。
VideoChat-R1_7B_caption は Qwen2-VL-7B-Instruct をベースとしたマルチモーダル動画テキスト生成モデルで、動画コンテンツの理解と記述生成に特化しています。
これはモデルセンターに公開されたTransformersモデルです。具体的な機能と用途は後で補足されます。
これはHubに公開されたTransformersモデルで、具体的な機能と用途は後で補足されます。
InternVL3 は先進的なマルチモーダル大規模言語モデルシリーズで、強力なマルチモーダル知覚と推論能力を備え、画像、ビデオ、テキスト入力をサポートします。
InternVL3-38Bは、高度なマルチモーダル大規模言語モデル(MLLM)であり、マルチモーダル認知と推論能力が著しく向上しており、ツール使用、GUIエージェント、産業用画像分析、3D視覚認知などの分野をサポートしています。
InternVL3-14Bは強力なマルチモーダル大規模言語モデルで、マルチモーダル認知と推論能力に優れ、画像、テキスト、ビデオなどの複数の入力をサポートします。
InternVL3は先進的なマルチモーダル大規模言語モデルシリーズで、強力なマルチモーダル知覚と推論能力を備え、画像、動画、テキスト入力をサポートします。