Mini-Gemini

画像理解と生成の両方を備えたマルチモーダルAIモデル

一般製品生産性AIモデル画像処理

ウェブサイトを開く

Mini-Geminiは、香港中文大学終身教授の賈佳亞教授のチームによって開発されたマルチモーダルモデルです。正確な画像理解能力と高品質のトレーニングデータを持ちます。画像推論と生成を組み合わせ、様々な規模のバージョンを提供しており、その性能はGPT-4やDALLE-3に匹敵します。Mini-Geminiは、Geminiのビジュアルデュアルブランチ情報マイニング方法とSDXL技術を採用し、畳み込みニューラルネットワークで画像をエンコードし、Attention機構を用いて情報を抽出し、同時にLLMを用いてテキストを生成することで、2つのモデルを連携させています。

AIツールを探す

AIツールを提出

AI モデル検索

MCPサーバー

MCPクライアント

MCPインスペクター

ケーススタディ

最新AIニュース

AI日刊要約

Mini-Gemini

Mini-Gemini 最新のトラフィック状況

Mini-Gemini 訪問数の傾向

Mini-Gemini 訪問地理的分布

Mini-Gemini トラフィックソース

Mini-Gemini 代替品

OpenCompass マルチモーダルリーダーボード — リアルタイム更新されるマルチモーダルモデルのパフォーマンスランキング

Llama-3.2-11B-Vision — 画像とテキストの処理に対応した、マルチモーダル大規模言語モデルです。

Valley — テキスト、画像、動画データを処理するマルチモーダル大規模言語モデル

Valley-Eagle-7B — テキスト、画像、ビデオデータを処理するマルチモーダル大規模言語モデル

LLaVA-NeXT — 多様な画像、動画、3Dデータを処理する大規模マルチモーダルモデルです。

Mini-Gemini — 画像理解と生成の両方を備えたマルチモーダルAIモデル

Grok-1.5 Vision プレビュー — デジタルと物理世界を繋ぐ、初のマルチモーダルモデル

Jamba 1.5 オープンモデルファミリー — 高性能長文処理AIモデル

InternVL2_5-2B-MPO — 高度先進なマルチモーダル大規模言語モデル

大規模ワールドモデル — 動画と言語を理解する大規模ワールドモデル

InternVL3 — InternVL3オープンソース：テキスト、画像、ビデオ処理に対応する7種類のサイズ、マルチモーダル機能は工業用画像分析まで拡張

SASモデルマネージャー — SASモデルマネージャー - 分析モデルのライフサイクル全体を管理

InternVL2_5-4B-MPO — 卓越な総合性能を発揮するマルチモーダル大規模言語モデル

X モデル — 人気のある主要なAIモデルを自在に使いこなし、製品に統合しましょう

SmolVLM-256M-Instruct — SmolVLM-256Mは、世界最小級のマルチモーダルモデルであり、画像とテキストの入力を効率的に処理してテキスト出力を生成します。

GLM-4シリーズ — オープンソースの多言語・マルチモーダル対話モデル

Pixtral-Large-Instruct-2411 — 1240億パラメータのマルチモーダル大規模言語モデル

pixtral-12b-240910 — 画像とテキストの理解をサポートする、マルチモーダル大規模言語モデルです。

マルチトークン予測 — マルチトークン予測モデルは、言語モデルの効率と性能を向上させる技術です。

FABRICモデル — モデルのカスタマイズをパーソナル化

LLaVA-Mini — LLaVA-Miniは、画像と動画を効率的に理解できる大規模マルチモーダルモデルです。

ハニービー — マルチモーダル言語モデル予測ネットワーク

Pixtral-12B-2409 — 120億パラメーターのマルチモーダルモデル。ビジョンエンコーダーを組み合わせることで、画像とテキストの処理を行います。

InternVL2_5-8B-MPO — 優れた総合性能を備えたマルチモーダル大規模言語モデルです。

ビジュアル・スケッチパッド — マルチモーダル言語モデルのための視覚推論ツール

メンタルモデルAI — より良い意思決定を支援する意思決定モデルコーチ

Kosmos-2 — 世界規模に対応したマルチモーダル大規模言語モデル

Valley 2.0 — テキスト、画像、動画データを処理する能力を向上させた、マルチモーダル大規模言語モデルです。

InternVL2_5-26B-MPO-AWQ — 高度洗練されたマルチモーダル大規模言語モデルであり、卓越したマルチモーダル推論能力を備えています。

EMOVA — 感情豊かなマルチモーダル言語モデル