先日、上海AIラボは書生・万象InternVL2.5モデルを発表しました。このオープンソースのマルチモーダル大規模言語モデルは、その卓越した性能により、マルチモーダル理解ベンチマーク(MMMU)で70%を超える精度を達成した初のオープンソースモデルとなり、GPT-4oやClaude-3.5-Sonnetなどの商用モデルと肩を並べる性能を誇ります。
InternVL2.5-MPOシリーズモデルは、InternVL2.5と混合嗜好最適化に基づき、卓越した性能を発揮します。
Shanghai-ai-lab
$2
入力トークン/百万
-
出力トークン/百万
8
コンテキスト長
FriendliAI
InternVideo2.5は、長く豊富な文脈(LRC)モデリングを強化したビデオマルチモーダル大規模言語モデル(MLLM)で、InternVL2.5上に構築されています。
ayeshaishaq
DriveLMM-o1は自動運転に最適化された微調整済み大規模マルチモーダルモデルで、InternVL2.5-8Bアーキテクチャを基盤とし、LoRA技術を用いて適応され、複数の視点からの画像を組み合わせて段階的な推論を実現します。
OpenGVLab
InternVideo2.5は、InternVL2.5を基盤としたビデオマルチモーダル大規模言語モデル(MLLM)で、長く豊富なコンテキスト(LRC)モデリングによって強化され、細粒度の詳細を感知し、長時間の時系列構造を捉えることができます。
InternVideo2.5は、長く豊富なコンテキスト(LRC)モデリングを強化したビデオマルチモーダル大規模言語モデルで、InternVL2.5を基盤として構築されており、細粒度の詳細を感知し、長時間の時系列構造を捉える能力を向上させることで、既存のMLLMモデルを大幅に改善しています。
5CD-AI
Vintern-1B-v3.5はInternVL2.5-1Bを微調整したマルチモーダル大規模言語モデルで、ベトナム語テキスト処理に特化しており、OCRやベトナム特有の文書理解において優れた性能を発揮します。