El equipo de modelos de lenguaje grande de ByteDance anuncia la publicación de código abierto de UI-TARS-1.5, un agente multimodal inteligente basado en un modelo de lenguaje visual, capaz de ejecutar eficientemente diversas tareas en un mundo virtual. Este modelo ha logrado un rendimiento SOTA (State-of-the-Art) en siete puntos de referencia típicos de evaluación de interfaces gráficas de usuario (GUI), mostrando por primera vez su capacidad de razonamiento a largo plazo en juegos y su capacidad de interacción en espacios abiertos. Este proyecto de código abierto marca un avance significativo en la tecnología de agentes multimodales en el ámbito de la manipulación de GUI y el razonamiento en juegos.
UI-TARS-1.5 se basa en la solución de agente nativo UI-TARS propuesta previamente por ByteDance. A través del aprendizaje por refuerzo, se ha mejorado aún más la capacidad de razonamiento de alto nivel del modelo, permitiendo que el modelo "piense" antes de "actuar". Este mecanismo de "pensar-actuar" mejora significativamente la capacidad de generalización del modelo al enfrentarse a entornos y tareas desconocidas, logrando que UI-TARS-1.5 supere a los modelos anteriores líderes en varias referencias de evaluación. Por ejemplo, en la evaluación de la capacidad de GUI Grounding, UI-TARS-1.5 alcanza una precisión del 61.6% en el difícil ScreenSpotPro, superando el 27.7% de Claude, el 23.4% de CUA y el 43.6% del modelo líder anterior.
En las tareas de juego, UI-TARS-1.5 también muestra un rendimiento excepcional. El equipo seleccionó 14 minijuegos de diferentes estilos de poki.com para las pruebas, permitiendo un máximo de 1000 pasos de interacción por partida. UI-TARS-1.5 no solo mostró un buen rendimiento en estas tareas, sino que también presentó una escalabilidad estable en el tiempo de inferencia. Además, el equipo evaluó las capacidades de UI-TARS-1.5 en el entorno abierto de Minecraft. En las tareas de evaluación estándar de MineRL, UI-TARS-1.5 logró la tasa de éxito más alta en las tareas de "encontrar y destruir bloques específicos" y "buscar y derrotar criaturas hostiles", especialmente al activar el "módulo de pensamiento", lo que verifica la eficacia del mecanismo de "pensar-actuar".
El éxito de UI-TARS-1.5 se debe a la exploración tecnológica del equipo en cuatro dimensiones: mejora de la percepción visual, mecanismo de razonamiento System2, modelado de acciones unificado y un paradigma de entrenamiento autoevolutivo. Gracias a estas tecnologías, UI-TARS-1.5 puede realizar operaciones precisas de GUI y destacar en tareas complejas. Por ejemplo, si un usuario quiere que el modelo "aumente el tamaño de la fuente", los modelos generales suelen tener una comprensión ambigua y cometen errores operativos, mientras que UI-TARS puede localizar rápidamente la entrada de "configuración" y, basándose en el conocimiento existente, deducir la ruta correcta para completar la operación con precisión.
El equipo de UI-TARS considera que la evolución de los agentes está pasando de un enfoque en el marco (framework) a un enfoque en el modelo (model). UI-TARS pertenece a los "modelos de agentes nativos (Agent Model)", con una estructura integrada completa de percepción, razonamiento, memoria y acción, capaz de acumular continuamente conocimientos y experiencia durante el entrenamiento, lo que le proporciona una mayor capacidad de generalización y adaptación. Este paradigma de ciclo cerrado "partiendo de los datos" hace que UI-TARS ya no dependa de reglas artificiales ni de ingeniería de prompts, ni necesite configurar repetidamente los pasos de interacción, reduciendo en gran medida el umbral de desarrollo.
En el futuro, el equipo de UI-TARS continuará mejorando el rendimiento de UI-TARS en tareas complejas mediante el aprendizaje por refuerzo, con el objetivo de alcanzar un nivel cercano al humano. Simultáneamente, continuará optimizando la experiencia del usuario de UI-TARS, mejorando aún más la fluidez de uso y enriqueciendo las capacidades de interacción. La publicación de código abierto de UI-TARS-1.5 proporciona a los desarrolladores e investigadores una herramienta potente para impulsar el desarrollo de la tecnología de agentes multimodales.
Enlaces de código abierto:
- GitHub: https://github.com/bytedance/UI-TARS
- Sitio web: https://seed-tars.com/
- Arxiv: https://arxiv.org/abs/2501.12326