DeepSeek-VL2
視覚と言語能力を融合した、高度なマルチモーダル理解モデルです。
一般製品画像視覚言語モデルマルチモーダル理解
DeepSeek-VL2は、大規模なMixture-of-Experts (MoE) 方式の視覚言語モデルシリーズであり、前世代のDeepSeek-VLから大幅な性能向上を実現しています。このモデルシリーズは、視覚的な質問応答、光学文字認識 (OCR)、文書・表・グラフの理解、および視覚的局所化などのタスクにおいて卓越した能力を示します。DeepSeek-VL2には、活性化パラメータ数がそれぞれ10億、28億、45億の3つのバリエーションがあります: DeepSeek-VL2-Tiny、DeepSeek-VL2-Small、およびDeepSeek-VL2。活性化パラメータ数が同等またはそれ以下である既存のオープンソースの密集型およびMoEベースのモデルと比較して、DeepSeek-VL2は競争力のある、あるいは最先端の性能を達成しています。
DeepSeek-VL2 最新のトラフィック状況
月間総訪問数
513197610
直帰率
36.07%
平均ページ/訪問
6.1
平均訪問時間
00:06:32