AlphaMaze

AlphaMaze 是一款专注于视觉推理任务的解码器语言模型，旨在解决传统语言模型在视觉任务上的不足。

普通产品生产力视觉推理语言模型

AlphaMaze 是一款专为解决视觉推理任务而设计的解码器语言模型。它通过针对迷宫解谜任务的训练，展示了语言模型在视觉推理方面的潜力。该模型基于 15 亿参数的 Qwen 模型构建，并通过监督微调（SFT）和强化学习（RL）进行训练。其主要优点在于能够将视觉任务转化为文本格式进行推理，从而弥补传统语言模型在空间理解上的不足。该模型的开发背景是提升 AI 在视觉任务上的表现，尤其是在需要逐步推理的场景中。目前，AlphaMaze 作为研究项目，暂未明确其商业化定价和市场定位。

AI新闻资讯

最新AI日报

AI 商用·开源产品库

AI 产品排行榜

AI产品提交

AI工具导航

GEO 品牌全景分析

GEO 品牌得分检测

GEO 排名查询

GEO 排名监测

AI 对话问题挖掘

GEO 推广链接检测

站点AI友好度检测

GEO排名优化系统源码

GEO 排名优化服务

MCP服务端

MCP客户端

MCP教程与实践

MCP排行榜

MCP服务提交

MCP实验场

MCP服务调试器

大模型API聚合平台

模型库

模型供应商

大模型排行榜

大模型API中转站检测

大模型选型对比

大模型费用计算器

大模型竞技场

模型个人电脑配置检测器

模型部署服务器配置计算器

AlphaMaze

AlphaMaze 最新流量情况

AlphaMaze 访问量趋势

AlphaMaze 访问地理位置分布

AlphaMaze 流量来源

AlphaMaze 替代品

LLaVA-o1 — 视觉语言模型，能够进行逐步推理

SpatialVLM — 给视觉语言模型赋予空间推理能力

Cola — 大型语言模型是视觉推理协调器

AlphaMaze — AlphaMaze 是一款专注于视觉推理任务的解码器语言模型，旨在解决传统语言模型在视觉任务上的不足。

QVQ-72B-Preview — 视觉推理能力增强的实验性研究模型

Llama-3.2-90B-Vision — 多模态大型语言模型，优化视觉识别和图像推理。

Moondream AI — 开源的视觉语言模型，可在多种设备上运行。

Visual Sketchpad — 多模态语言模型的视觉推理工具

Aya Vision 32B — Aya Vision 32B 是一个支持多语言的视觉语言模型，适用于OCR、图像描述、视觉推理等多种用途。

AlphaMaze-v0.2-1.5B — 一种通过文本迷宫解决任务来增强大型语言模型视觉推理能力的创新方法

InternLM-Math-Plus — 双语开源数学推理大型语言模型。

Aya Vision 8B — 8亿参数的多语言视觉语言模型，支持OCR、图像描述、视觉推理等功能

vdr-2b-multi-v1 — 多语言嵌入模型，用于视觉文档检索。

Cantor — 创新的多模态链式思维框架，提升视觉推理能力

Vary — 大规模视觉语言模型的视觉词汇扩展

CogVLM — 强大的开源视觉语言模型

Qwen-VL — 通用型视觉语言模型

PowerInfer — 高速大型语言模型本地部署推理引擎

Llama 3.1 Nemotron Ultra 253B — 一款高效的推理与聊天大语言模型。

Mistral-Large-Instruct-2407 — 先进的大型语言模型，具备推理和编程能力。

Grok-2 — 前沿语言模型，具有先进的推理能力。

Phi-4 — 微软最新的小型语言模型，专注于复杂推理

SmolVLM — 高效开源的视觉语言模型

PaliGemma2-3b-pt-448 — PaliGemma 2是一个强大的视觉-语言模型，支持多种视觉语言任务。

MouSi — 多模态视觉语言模型

SRM — 通过去噪生成模型进行空间推理，解决复杂分布下的视觉任务。

HuatuoGPT-o1 — 医疗领域复杂推理的大型语言模型

moondream — 一款强大的小型视觉语言模型，无处不在

InternVL — 开源视觉基础模型

AlphaMaze

AlphaMaze 最新流量情况

AlphaMaze 访问量趋势

AlphaMaze 访问地理位置分布

AlphaMaze 流量来源

AlphaMaze 替代品

LLaVA-o1 — 视觉语言模型，能够进行逐步推理

SpatialVLM — 给视觉语言模型赋予空间推理能力

Cola — 大型语言模型是视觉推理协调器

AlphaMaze — AlphaMaze 是一款专注于视觉推理任务的解码器语言模型，旨在解决传统语言模型在视觉任务上的不足。

QVQ-72B-Preview — 视觉推理能力增强的实验性研究模型

Llama-3.2-90B-Vision — 多模态大型语言模型，优化视觉识别和图像推理。

Moondream AI — 开源的视觉语言模型，可在多种设备上运行。