Aria-UI est un modèle multi-modal à grande échelle conçu pour la localisation visuelle d'instructions GUI. Il utilise une approche purement visuelle, sans recourir à des entrées auxiliaires, et s'adapte à des instructions de planification variées. Il génère des exemples d'instructions diversifiés et de haute qualité pour s'adapter à différentes tâches. Aria-UI a établi de nouveaux records dans les tests de référence d'agents hors ligne et en ligne, surpassant les références basées uniquement sur la vision et celles utilisant AXTree.