AlphaMaze é um modelo de linguagem decodificador criado especificamente para resolver tarefas de raciocínio visual. Treinado para resolver quebra-cabeças de labirintos, demonstra o potencial dos modelos de linguagem no raciocínio visual. O modelo é baseado no modelo Qwen de 1,5 bilhão de parâmetros e treinado por meio de ajuste fino supervisionado (SFT) e aprendizado por reforço (RL). Sua principal vantagem é a capacidade de converter tarefas visuais em formato de texto para raciocínio, compensando assim a falta de compreensão espacial dos modelos de linguagem tradicionais. O desenvolvimento do modelo visa melhorar o desempenho da IA em tarefas visuais, especialmente em cenários que requerem raciocínio passo a passo. Atualmente, AlphaMaze é um projeto de pesquisa e seu preço comercial e posicionamento de mercado ainda não estão definidos.