Aria-UI es un modelo multimodal a gran escala diseñado específicamente para la localización visual de instrucciones de GUI. Emplea un método puramente visual, sin depender de entradas auxiliares, y se adapta a diversas instrucciones de planificación. Genera muestras de instrucciones diversas y de alta calidad para adaptarse a diferentes tareas. Aria-UI ha establecido nuevos récords en las pruebas de referencia de agentes en línea y fuera de línea, superando los métodos base que dependen únicamente de la visión y los que dependen de AXTree.