AlphaMaze-v0.2-1.5B

大規模言語モデルの視覚推論能力を向上させるための、テキスト迷路解決タスクを用いた革新的な手法

一般製品その他人工知能言語モデル

AlphaMazeは、大規模言語モデル（LLM）の視覚推論能力の向上に焦点を当てたプロジェクトです。テキストで記述された迷路タスクを通してモデルを訓練することで、空間構造の理解と計画能力を向上させます。この手法は、複雑な画像処理を回避するだけでなく、テキスト記述を通してモデルの空間理解能力を直接評価できます。主な利点は、モデルが空間問題をどのように解決しようとしているかを明らかにできる点であり、単に問題を解決できるかどうかだけでなく、その思考プロセスを垣間見ることができる点です。本モデルはオープンソースフレームワークに基づいており、言語モデルにおける視覚推論分野の研究開発を促進することを目的としています。

AIツールを探す

AIツールを提出

AI モデル検索

MCPサーバー

MCPクライアント

MCPインスペクター

ケーススタディ

最新AIニュース

AI日刊要約

AlphaMaze-v0.2-1.5B

AlphaMaze-v0.2-1.5B 最新のトラフィック状況

AlphaMaze-v0.2-1.5B 訪問数の傾向

AlphaMaze-v0.2-1.5B 訪問地理的分布

AlphaMaze-v0.2-1.5B トラフィックソース

AlphaMaze-v0.2-1.5B 代替品

LLaVA-o1 — 段階的推論が可能な視覚言語モデル

SpatialVLM — 視覚言語モデルに空間推論能力を付与します

ビジュアル・スケッチパッド — マルチモーダル言語モデルのための視覚推論ツール

Cola — 大規模言語モデルによる視覚推論調整器

AlphaMaze — AlphaMazeは、視覚推論タスクに特化したデコーダー言語モデルであり、従来の言語モデルが視覚タスクで抱える課題を解決することを目指しています。

AlphaMaze-v0.2-1.5B — 大規模言語モデルの視覚推論能力を向上させるための、テキスト迷路解決タスクを用いた革新的な手法

QVQ-72B-Preview — 視覚推論能力を強化した実験的な研究モデル

MouSi — 多モーダル視覚言語モデル

視覚検査 — モデル間の文字列関係を学習し、視覚世界を検査する

Llama-3.2-90B-Vision — 視覚認識と画像推論を最適化した、マルチモーダル大規模言語モデルです。

Cantor — 革新的なマルチモーダル連鎖思考フレームワーク。視覚推論能力を向上させます。

Aya Vision 32B — Aya Vision 32Bは、OCR、画像記述、視覚推論など、多様な用途に適した多言語対応のビジュアル言語モデルです。

InternThinker — 上海人工知能研究所開発の高推論AIモデル

大規模言語モデル之家 — 人工知能大規模言語モデル産業に関する包括的な情報と革新的な価値研究を提供します。

視覚アナグラム — 事前学習済み拡散モデルを用いて視覚錯覚を作成します。

BlueLM藍心大規模言語モデル — vivoが独自開発した高度な言語理解モデル

Aya Vision 8B — 8億パラメーターの多言語視覚言語モデルで、OCR、画像キャプション、視覚推論などの機能をサポートしています。

DriveVLM — 自動運転と視覚言語モデルの融合

InternLM-Math-Plus — 双言語対応のオープンソース大型数学推論言語モデルです。

LongVA — 言語から視覚への長文脈変換モデル

CheXagent — 視覚言語基盤モデルに基づく胸部X線読影ツール

POINTS-Qwen-2-5-7B-Chat — 最新の視覚言語モデルの進歩

Orca 2 — 推論と理解のための小型言語モデル

PaliGemma 2-3b-pt-448 — PaliGemma 2は、多様な視覚言語タスクに対応する強力な視覚言語モデルです。

ColPali — 視覚言語モデルによる高効率文書検索ツール

DeepSeek-VL2 — 視覚と言語能力を融合した、高度なマルチモーダル理解モデルです。

Eurus-2-7B-SFT — Eurus-2-7B-SFTは、数学的能力を最適化された大規模言語モデルであり、推論と問題解決に特化しています。

vision-parse — 視覚言語モデルを利用してPDFをMarkdownに変換します。

InternLM-XComposer-2.5 — 多機能大型視覚言語モデル