Microsoft ha lanzado recientemente una versión actualizada de su modelo de lenguaje grande para Windows, OmniParser, llamado OmniParser-v2.0. Este modelo puede identificar e interactuar con elementos de escritorio y ventanas, lo que representa un paso más hacia la automatización completa del uso del ordenador mediante la tecnología AI Agent.
La capacidad clave de OmniParser-v2.0 radica en su capacidad de percepción e interacción con el entorno de escritorio. Esto significa que, al combinarse con este modelo, un AI Agent no solo puede comprender las instrucciones del usuario, sino también ejecutar acciones directamente en el sistema operativo Windows, como abrir ventanas específicas, localizar y hacer clic en botones, e introducir texto.
Cabe destacar que OmniParser-v2.0 puede integrarse con otros modelos como DeepSeek-R1. Esta escalabilidad permite la creación de AI Agents más potentes y flexibles.
Expertos del sector señalan que, con la aparición de herramientas como OmniParser-v2.0, la cadena de herramientas de los AI Agents se está perfeccionando cada vez más. Desde la navegación web hasta el manejo del sistema operativo, el alcance de las capacidades de los AI Agents se amplía constantemente, lo que presagia un mayor papel de la IA en el futuro en áreas como la automatización de oficina y los asistentes personales. Nos estamos acercando gradualmente a una era informática más inteligente y eficiente impulsada por la IA.





