OmniParser V2 es un modelo de inteligencia artificial avanzado desarrollado por el equipo de investigación de Microsoft, diseñado para convertir los modelos de lenguaje grandes (LLM) en agentes inteligentes capaces de comprender y manipular interfaces gráficas de usuario (GUI). Esta tecnología convierte las capturas de pantalla de la interfaz del espacio de píxeles a elementos estructurados e interpretables, permitiendo a los LLM identificar con mayor precisión los iconos interactivos y realizar acciones predefinidas en la pantalla. OmniParser V2 ha logrado avances significativos en la detección de iconos pequeños y la inferencia rápida; combinado con GPT-4o, alcanzó una precisión media del 39,6% en la prueba de referencia ScreenSpot Pro, superando con creces el 0,8% del modelo original. Además, OmniParser V2 proporciona la herramienta OmniTool, compatible con múltiples LLM, impulsando aún más el desarrollo de la automatización de GUI.