Aria-UI é um modelo multimodal de grande escala projetado para localização visual de comandos de GUI. Ele emprega um método puramente visual, sem depender de entradas auxiliares, adaptando-se a diversos comandos de planejamento e ajustando-se a diferentes tarefas através da síntese de amostras de comandos diversificadas e de alta qualidade. O Aria-UI estabeleceu novos recordes em benchmarks de agentes offline e online, superando as linhas de base que dependem apenas de visão e aquelas que dependem de AXTree.