DeepSeek-VL2

視覚と言語能力を融合した、高度なマルチモーダル理解モデルです。

一般製品画像視覚言語モデルマルチモーダル理解

DeepSeek-VL2は、大規模なMixture-of-Experts (MoE) 方式の視覚言語モデルシリーズであり、前世代のDeepSeek-VLから大幅な性能向上を実現しています。このモデルシリーズは、視覚的な質問応答、光学文字認識 (OCR)、文書・表・グラフの理解、および視覚的局所化などのタスクにおいて卓越した能力を示します。DeepSeek-VL2には、活性化パラメータ数がそれぞれ10億、28億、45億の3つのバリエーションがあります: DeepSeek-VL2-Tiny、DeepSeek-VL2-Small、およびDeepSeek-VL2。活性化パラメータ数が同等またはそれ以下である既存のオープンソースの密集型およびMoEベースのモデルと比較して、DeepSeek-VL2は競争力のある、あるいは最先端の性能を達成しています。

ウェブサイトを開く

DeepSeek-VL2 最新のトラフィック状況

月間総訪問数

493360068

直帰率

36.08%

平均ページ/訪問

6.1

平均訪問時間

00:06:29

DeepSeek-VL2 訪問数の傾向

DeepSeek-VL2 訪問地理的分布

DeepSeek-VL2 トラフィックソース

DeepSeek-VL2 代替品

DeepSeek-VL2 — 視覚と言語能力を融合した、高度なマルチモーダル理解モデルです。

画像

•視覚言語モデル•マルチモーダル理解

600

Qwen2-VL-2B — 最先端をいく視覚言語モデルで、マルチモーダル理解とテキスト生成に対応しています。

画像

AIニュース

AIニュース日報

AIツールを探す

AI製品ランキング

AIプロダクト登録

AIツールディレクトリ

GEO ブランドビジビリティ

GEOブランドAI可視性診断

GEOランキング照会ツール

GEO順位モニタリングツール

AI対話キーワード発掘

GEOプロモーションリンク検出

ウェブサイトAI親和性検出

GEOランキング最適化システム

GEO順位最適化サービス

MCPサーバー

MCPクライアント

MCPケースチュートリアル

MCPランキング

MCPサービス提出

MCP実験場

MCPインスペクター

大規模言語モデルAPI

AIモデルファインダー

LLMプロバイダー

LLMランキング

大規模言語モデルAPIプロキシチェッカー

LLM比較選定

LLMコスト計算機

LLMアリーナ

AIモデル互換性チェッカー

モデル展開サーバー構成計算機

DeepSeek-VL2

DeepSeek-VL2 最新のトラフィック状況

DeepSeek-VL2 訪問数の傾向

DeepSeek-VL2 訪問地理的分布

DeepSeek-VL2 トラフィックソース

DeepSeek-VL2 代替品

DeepSeek-VL2 — 視覚と言語能力を融合した、高度なマルチモーダル理解モデルです。

Qwen2-VL-2B — 最先端をいく視覚言語モデルで、マルチモーダル理解とテキスト生成に対応しています。

ビジュアル・スケッチパッド — マルチモーダル言語モデルのための視覚推論ツール

MouSi — 多モーダル視覚言語モデル

大規模ワールドモデル — 動画と言語を理解する大規模ワールドモデル

Liquid — 視覚理解と生成を統合したマルチモーダル生成モデルです。

MiniGemini — 画像とテキストの両方を理解および生成できるマルチモーダル大規模言語モデルです。

InternVL2_5-26B — 視覚と言語理解を融合したマルチモーダル大規模言語モデル。

InternVL2_5-4B — 視覚と言語理解を融合したマルチモーダル大規模言語モデル。

mPLUG-DocOwl — 文書理解のためのモジュール型マルチモーダル大規模言語モデル

InternVL2_5-1B-MPO — 視覚と言語の包括的な理解能力を向上させる、マルチモーダル大規模言語モデル

MiniCPM-o-2_6 — MiniCPM-o 2.6は、視覚、音声、マルチモーダルライブストリーミングに適した強力なマルチモーダル大規模言語モデルです。

mPLUG-Owl3 — 長画像シーケンスを理解するマルチモーダル大規模言語モデル。

星辰語義大モデル — 中国電信が提供する、千億パラメーターの大規模言語モデルです。

BlueLM藍心大規模言語モデル — vivoが独自開発した高度な言語理解モデル

LLaVA-o1 — 段階的推論が可能な視覚言語モデル

Aria-Base-64K — 多モーダルネイティブMixture-of-Expertsモデル

Florence-VL — 視覚言語モデル強化ツール。生成型視覚エンコーダと深層幅融合技術を組み合わせました。

Pixtral-Large-Instruct-2411 — 1240億パラメータのマルチモーダル大規模言語モデル

ハニービー — マルチモーダル言語モデル予測ネットワーク

視覚検査 — モデル間の文字列関係を学習し、視覚世界を検査する

POINTS-Qwen-2-5-7B-Chat — 最新の視覚言語モデルの進歩

MNN大規模言語モデル Androidアプリ — 多様なモダリティに対応した、フル機能の巨大言語モデルAndroidアプリです。

DriveVLM — 自動運転と視覚言語モデルの融合

VisRAG — 視覚言語モデルに基づく検索拡張型生成モデル

imp-v1-3b — 強力なマルチモーダル小型言語モデル

OpenCompass マルチモーダルリーダーボード — リアルタイム更新されるマルチモーダルモデルのパフォーマンスランキング

Cantor — 革新的なマルチモーダル連鎖思考フレームワーク。視覚推論能力を向上させます。

Kosmos-2 — 世界規模に対応したマルチモーダル大規模言語モデル

DeepSeek-VL2

DeepSeek-VL2 最新のトラフィック状況

DeepSeek-VL2 訪問数の傾向

DeepSeek-VL2 訪問地理的分布

DeepSeek-VL2 トラフィックソース

DeepSeek-VL2 代替品

DeepSeek-VL2 — 視覚と言語能力を融合した、高度なマルチモーダル理解モデルです。

Qwen2-VL-2B — 最先端をいく視覚言語モデルで、マルチモーダル理解とテキスト生成に対応しています。

ビジュアル・スケッチパッド — マルチモーダル言語モデルのための視覚推論ツール

MouSi — 多モーダル視覚言語モデル

大規模ワールドモデル — 動画と言語を理解する大規模ワールドモデル

Liquid — 視覚理解と生成を統合したマルチモーダル生成モデルです。

MiniGemini — 画像とテキストの両方を理解および生成できるマルチモーダル大規模言語モデルです。