AIBase
ホーム
AIニュース
AIツール
AIモデル
MCP
AIサービス
AI計算力
AIチュートリアル
JA

AI製品

もっと見る
Video-LLaVA

Video-LLaVA

先行投影アライメントによる、統合視覚表現学習

AIビデオ検索
10.6k

モデル

もっと見る

Video Llava

AnasMohamed

V

Vision Transformerアーキテクチャに基づく大規模視覚言語モデルで、画像とテキストのクロスモーダル理解をサポート

マルチモーダルGgufGguf
AnasMohamed
194
0

Video LLaVA 7B Hf

LanguageBind

V

Video-LLaVAはオープンソースのマルチモーダルモデルで、マルチモーダル指令追従データで大規模言語モデルを微調整することで訓練され、交互する画像とビデオを生成することができます。

マルチモーダルTransformersTransformers
LanguageBind
13.2k
42

Video LLaVA 7B

LanguageBind

V

Video-LLaVAは投影前アライメント学習により視覚表現を統一するマルチモーダルモデルで、画像と動画の視覚推論タスクを同時に処理できます。

マルチモーダルTransformersTransformers
LanguageBind
2.1k
85
AIBase
未来を力づける、あなたの人工知能ソリューションシンクタンク
English简体中文繁體中文にほんご
友情链接:
AI Newsletters AI ToolsMCP ServersAI NewsAIBaseLLM LeaderboardAI Ranking
© 2026AIBase
ビジネス協力サイトマップ