AlphaMaze est un modèle de langage décodeur spécialement conçu pour résoudre des tâches de raisonnement visuel. Entraîné sur des tâches de résolution de labyrinthes, il démontre le potentiel des modèles linguistiques dans le raisonnement visuel. Basé sur le modèle Qwen à 1,5 milliard de paramètres, il est entraîné par apprentissage supervisé (SFT) et apprentissage par renforcement (RL). Son principal avantage réside dans sa capacité à convertir les tâches visuelles en format textuel pour le raisonnement, compensant ainsi les lacunes des modèles linguistiques traditionnels en matière de compréhension spatiale. Le développement d'AlphaMaze vise à améliorer les performances de l'IA dans les tâches visuelles, notamment dans les scénarios nécessitant un raisonnement progressif. Actuellement, AlphaMaze est un projet de recherche et son prix commercial et son positionnement sur le marché ne sont pas encore définis.