En el campo de la robótica, hacer que la inteligencia artificial realmente "entienda" el mundo en tres dimensiones siempre ha sido un problema complejo. Los modelos tradicionales de lenguaje visual (VLA) suelen depender de datos bidimensionales de imágenes y texto para entrenarse, lo que dificulta comprender el espacio tridimensional del entorno real. Sin embargo, un equipo de investigación de la Universidad de Shanghái Jiao Tong y la Universidad de Cambridge ha propuesto recientemente un nuevo modelo de acción visual lingüística mejorado llamado Evo-0, que inyecta de manera ligera conocimientos geométricos 3D, mejorando significativamente la capacidad de comprensión espacial de los robots en tareas complejas.

La innovación del modelo Evo-0 radica en el uso del modelo base de geometría visual (VGGT), que extrae información de estructuras tridimensionales a partir de imágenes RGB desde múltiples perspectivas y combina estas informaciones con modelos de lenguaje visual existentes. Este enfoque no solo evita la necesidad de sensores adicionales o entradas explícitas de profundidad, sino que también mejora significativamente la percepción espacial. En experimentos de simulación RLBench, el Evo-0 logró una tasa de éxito un 15% mayor que el modelo base pi0 en cinco tareas que requieren operaciones precisas, y mejoró un 31% en el modelo openvla-oft.

image.png

En detalle, el Evo-0 utiliza el VGGT como codificador espacial, introduciendo los tokens t3^D extraídos mediante el VGGT, los cuales contienen información geométrica como contexto de profundidad y relaciones espaciales. A través de un módulo de fusión de atención cruzada, el modelo puede combinar eficazmente los tokens visuales bidimensionales extraídos con los tokens tridimensionales, mejorando así la comprensión de la disposición espacial y las relaciones entre objetos. Este enfoque mejora la flexibilidad y la facilidad de implementación sin comprometer la eficiencia del entrenamiento.

En experimentos del mundo real, el Evo-0 demostró un buen desempeño al manejar tareas espaciales complejas, como colocar un objetivo en el centro, insertar en un orificio y capturar en densidad, superando al modelo base en todos ellos, con un aumento promedio del 28,88% en la tasa de éxito. En particular, el Evo-0 mostró una ventaja significativa en la comprensión y manipulación de relaciones espaciales complejas.

En resumen, el Evo-0 ofrece una nueva ruta viable para las estrategias futuras de robótica general mediante una fusión ingeniosa de información espacial. Esta investigación no solo ha despertado un amplio interés en la comunidad académica, sino que también abre nuevas posibilidades para la aplicación práctica en el campo de la robótica.