テンセントの混元は、UCLAや香港中文大学などと協力し、マルチモーダル大規模言語モデル(MLLMs)の「受動的理解」から「能動的推論」への進化を促進するため、マルチモーダル検索エージェントをオープンソース化しました。これまで、高品質データ、自動軌跡合成パス、訓練レシピの欠如により、トップエージェントの再現が困難でした。今回のオープンソース化は、この停滞を打破し、コミュニティの発展を目指します。....
ARグラスがMLLM-SCフレームワークで10ミリ秒以内に意味的注意マップを生成し、重要目標を優先的にマーク。意味エンジンがマルチモーダルデータを選別し、6Gネットワークの30%帯域幅を解放。エッジサーバーと連携して応答効率を向上。....
昆侖万維のSkyReelsチームは、世界初の拡散強制(Diffusion-forcing)フレームワークを使用した無限の長さの映画生成モデルであるSkyReels-V2を正式にリリースし、オープンソース化しました。このモデルは、マルチモーダル大規模言語モデル(MLLM)、多段階事前学習、強化学習、拡散強制フレームワークを組み合わせることで協調的な最適化を実現し、ビデオ生成技術が新たな段階に入ったことを示しています。
OpenGVLabは、InternVL3シリーズモデルのオープンソースリリースを発表しました。これは、マルチモーダル大規模言語モデル(MLLM)分野における新たなマイルストーンとなります。InternVL3シリーズは、1Bから78Bまでの7つのサイズからなるモデル群で、テキスト、画像、ビデオなどの様々な情報を同時に処理でき、優れた総合性能を示しています。
MiniCPM-o 2.6:GPT-4oレベルの性能を備え、スマートフォン上でビジュアル、音声、マルチモーダルライブストリーミングを実現するMLLMです。
多粒度視覚指示微調整による革新的なMLLM
包括的なMLLM評価を提供
正確な引用と位置特定を実現するエンドツーエンドMLLM
Alibaba
$2
入力トークン/百万
-
出力トークン/百万
128
コンテキスト長
Tencent
$6
$18
256
Baidu
unsloth
InternVL3-38B-Instruct は先進的なマルチモーダル大規模言語モデル(MLLM)で、卓越した全体的な性能と強力なマルチモーダル知覚・推論能力を備えています。
InternVL3-8B-Instruct は先進的なマルチモーダル大規模言語モデル(MLLM)で、卓越した全体的な性能と強力なマルチモーダル知覚・推論能力を備えています。
InternVL3-14B-Instructは先進的なマルチモーダル大規模言語モデル(MLLM)で、優れたマルチモーダル知覚と推論能力を示し、ツール使用、GUIエージェント、産業画像分析、3D視覚知覚など様々なタスクをサポートします。
ByteDance-Seed
SAILは視覚と言語のために設計された単一Transformerモデルで、統一されたマルチモーダル大規模言語モデル(MLLM)として、単一アーキテクチャ内で元のピクセルエンコーディングと言語デコード機能をシームレスに統合しています。
OpenGVLab
InternVL3-38Bは、高度なマルチモーダル大規模言語モデル(MLLM)であり、マルチモーダル認知と推論能力が著しく向上しており、ツール使用、GUIエージェント、産業用画像分析、3D視覚認知などの分野をサポートしています。
InternVL3-2BはOpenGVLabが開発した先進的なマルチモーダル大規模言語モデル(MLLM)で、優れたマルチモーダル知覚と推論能力を備え、ツール使用、GUIエージェント、産業画像分析、3D視覚知覚などをサポートします。
InternVL3-8B-Instruct は先進的なマルチモーダル大規模言語モデル(MLLM)で、優れたマルチモーダル知覚と推論能力を示し、ツール使用、GUIエージェント、産業画像分析、3D視覚知覚など多様な機能をサポートします。
InternVL3-38B-Instruct は先進的なマルチモーダル大規模言語モデル(MLLM)で、優れたマルチモーダル知覚と推論能力を示し、ツール使用、GUIエージェント、産業画像分析、3D視覚知覚など様々なタスクをサポートします。
Isotr0py
Ovis2-1Bはマルチモーダル大規模言語モデル(MLLM)Ovisシリーズの最新メンバーで、視覚とテキストの埋め込み構造のアライメントに焦点を当て、小型モデルながら高性能、強化された推論能力、動画と複数画像処理、多言語OCR強化などの特徴を備えています。
nonwhy
PUREは、低レベル視覚タスクを解決するためにマルチモーダル大規模言語モデル(MLLM)をバックボーンネットワークとして採用した最初のフレームワークです。
FriendliAI
InternVideo2.5は、長く豊富な文脈(LRC)モデリングを強化したビデオマルチモーダル大規模言語モデル(MLLM)で、InternVL2.5上に構築されています。
StevenHH2000
Finedeficsはオープンソースのマルチモーダル大規模言語モデル(MLLM)で、オブジェクトの情報的属性記述を組み込むことで、細粒度視覚認識(FGVR)能力を強化しています。
長く豊富なコンテキスト(LRC)モデリングを強化した動画マルチモーダル大規模言語モデル。細かいディテールの知覚と長時間の時間的構造の捕捉能力を向上させ、既存のMLLMを改善
InternVideo2.5は、InternVL2.5を基盤としたビデオマルチモーダル大規模言語モデル(MLLM)で、長く豊富なコンテキスト(LRC)モデリングによって強化され、細粒度の詳細を感知し、長時間の時系列構造を捉えることができます。
InternVideo2.5は、長く豊富なコンテキスト(LRC)モデリングを強化したビデオマルチモーダル大規模言語モデルで、InternVL2.5を基盤として構築されており、細粒度の詳細を感知し、長時間の時系列構造を捉える能力を向上させることで、既存のMLLMモデルを大幅に改善しています。
PULSE-ECG
心電図(ECG)画像解読のために特別に設計されたマルチモーダル大規模言語モデル(MLLM)。多様なデータソースからのECG関連タスクを処理可能。
jadechoghari
Ferret-UIはユーザーインターフェースに特化した初のマルチモーダル大規模言語モデル(MLLM)で、Llama-3-8Bを基盤として構築され、参照、位置特定、推論などの複雑なUIタスクを実行できます。