上海AI研、多モーダル大規模モデル「InternVL3.5」をオープンソース化。階層型強化学習や動的視覚解像度ルーティングなどの新技術を採用し、推論能力や汎用性能を向上。1B~241Bの全サイズ版を提供し、オープンソースモデルの性能基準を更新。....
OpenGVLabは、InternVL3シリーズモデルのオープンソースリリースを発表しました。これは、マルチモーダル大規模言語モデル(MLLM)分野における新たなマイルストーンとなります。InternVL3シリーズは、1Bから78Bまでの7つのサイズからなるモデル群で、テキスト、画像、ビデオなどの様々な情報を同時に処理でき、優れた総合性能を示しています。
InternVL3オープンソース:テキスト、画像、ビデオ処理に対応する7種類のサイズ、マルチモーダル機能は工業用画像分析まで拡張
Baidu
-
入力トークン/百万
出力トークン/百万
32
コンテキスト長
Shanghai-ai-lab
$2
8
OpenGVLab
InternVL3_5-38Bは、オープンソースのマルチモーダルモデルInternVL3.5シリーズの一員で、機能性、推論能力、推論効率の面で著しい進歩を遂げています。多言語をサポートし、画像テキストからテキストへのタスクに適用でき、カスケード強化学習フレームワークとビジュアル解像度ルーター技術を用いて性能を最適化しています。
InternVL3.5-4Bはオープンソースのマルチモーダルモデルシリーズの中規模バージョンで、汎用性、推論能力、推論効率の面で顕著な進歩を遂げ、GUIインタラクションなどの新機能をサポートしています。このモデルはカスケード強化学習フレームワークと視覚解像度ルーター技術を採用し、効率的なマルチモーダル理解と推論を実現しています。
InternVL3.5はオープンソースのマルチモーダルモデルファミリーの新メンバーで、InternVLシリーズの汎用性、推論能力、推論効率を大幅に向上させ、GUIインタラクションなどの新機能をサポートし、オープンソースのマルチモーダル大規模言語モデルの先進水準に達しています。
InternVL3.5-4Bはオープンソースのマルチモーダルモデルシリーズの中規模版で、4.7億のパラメータを含み、先進的なカスケード強化学習フレームワークとビジュアル解像度ルーター技術を採用しており、マルチモーダル推論能力と効率を大幅に向上させています。
InternVL3.5-1BはInternVLシリーズのオープンソースマルチモーダルモデルで、パラメータ数は11億で、そのうちビジュアルパラメータが3億、言語パラメータが8億を含んでいます。このモデルは汎用性、推論能力、推論効率を大幅に向上させ、GUIインタラクションなどの新機能をサポートしています。
InternVL3.5-14BはInternVLシリーズのオープンソースのマルチモーダルモデルで、汎用性、推論能力、推論効率が大幅に向上し、GUIインタラクションなどの新機能をサポートし、商用モデルとの性能差を縮小しました。
brandonbeiler
これはOpenGVLab/InternVL3_5-8Bのfp8動的(w8a8)量子化バージョンで、vLLMの高性能推論に対して最適化されています。FP8動的量子化技術を採用し、ビジュアル理解能力を維持しながら、メモリ使用量を大幅に削減し、推論速度を向上させます。
これはInternVL3_5-GPT-OSS-20B-A4B-PreviewモデルのFP8動的量子化バージョンで、w8a8技術を用いて最適化され、vLLMに特化した高性能推論デプロイが可能です。このモデルは、視覚言語理解能力を維持しながら、推論速度とメモリ効率を大幅に向上させています。
これはOpenGVLab/InternVL3_5-30B-A3Bのfp8動的(w8a8)量子化バージョンで、vLLM高性能推論に最適化されており、FP8動的量子化技術を採用しており、メモリ使用量が約50%削減され、推論速度が大幅に向上します。
KnutJaegersberg
InternVL3_5-38B-Q8_0-GGUFは、OpenGVLabのInternVL3_5-38Bモデルをllama.cppを使って変換したGGUF量子化バージョンです。このモデルは38Bパラメータのマルチモーダル視覚言語モデルで、画像とテキストの連合理解と生成をサポートし、推論効率を最適化するためにQ8_0量子化形式を採用しています。
lmstudio-community
これはOpenGVLabのInternVL3_5 14Bモデルの量子化バージョンで、画像テキストからテキストへの変換タスクをサポートし、量子化技術によりモデルの実行効率を向上させ、関連アプリケーションにより効率的な解決策を提供します。
これはOpenGVLabが公開したInternVL3_5 8BモデルのGGUF量子化バージョンで、画像テキストからテキストへの変換タスクに特化しており、量子化技術によりより効率的な推論ソリューションを提供します。
Koitenshin
これはInternVL3アーキテクチャに基づくマルチモーダルビジュアル言語モデルで、GGUF形式に量子化処理され、画像テキストからテキストへの変換をサポートし、多言語能力を備えています。
これはInternVL3-8Bを微調整した制限解除バージョンのモデルで、GGUF形式に変換され、多言語の画像テキストからテキストへのタスクをサポートし、より広範な使用シーンに適しています。
ConfidentialMind
これはOpenGVLab/InternVL3-38BのFP8静的量子化バージョンで、vLLMを使用した高性能推論に最適化されており、ビジュアル言語タスクで約2倍の高速化を実現し、同時に精度の損失は極めて少ないです。
unsloth
InternVL3-78B-Instructは、マルチモーダル知覚、推論、言語処理などの分野で優れた性能を発揮する先進的なマルチモーダル大規模言語モデルです。このモデルは、ネイティブマルチモーダル事前学習手法を用いて、視覚と言語の学習を統一した学習段階に統合し、ツールの使用、GUIエージェント、産業用画像分析、3D視覚知覚などの多くの分野で卓越した能力を発揮します。
InternVL3-38B-Instruct は先進的なマルチモーダル大規模言語モデル(MLLM)で、卓越した全体的な性能と強力なマルチモーダル知覚・推論能力を備えています。
InternVL3-8B-Instruct は先進的なマルチモーダル大規模言語モデル(MLLM)で、卓越した全体的な性能と強力なマルチモーダル知覚・推論能力を備えています。
InternVL3-2B-Instructは先進的なマルチモーダル大規模言語モデルで、前代と比べてより優れたマルチモーダル感知と推論能力を持ち、ツール使用、GUIエージェント、産業画像分析、3Dビジョン感知などの分野を拡張しています。原生のマルチモーダル事前学習方法を採用し、言語学習とビジョン学習を単一の事前学習段階に統合しています。
InternVL3-14B-Instructは先進的なマルチモーダル大規模言語モデル(MLLM)で、優れたマルチモーダル知覚と推論能力を示し、ツール使用、GUIエージェント、産業画像分析、3D視覚知覚など様々なタスクをサポートします。