Na área de robótica, fazer com que a inteligência artificial realmente "entenda" o mundo tridimensional tem sido um problema complexo. Os modelos tradicionais de linguagem visual (VLA) dependem principalmente de dados bidimensionais e texto para treinamento, tornando difícil entender o espaço tridimensional no ambiente real. No entanto, uma equipe de pesquisa da Universidade de Xangai e da Universidade de Cambridge apresentou recentemente um novo modelo de ação visual linguística aumentado chamado Evo-0. Ao injetar previamente geometria 3D de forma leve, o modelo melhorou significativamente a capacidade de compreensão espacial dos robôs em tarefas complexas.
A inovação do modelo Evo-0 está em seu uso do modelo de geometria visual (VGGT), que extrai informações de estrutura tridimensional a partir de imagens RGB em múltiplas perspectivas e as combina com modelos de linguagem visual existentes. Essa abordagem não apenas evita a necessidade de sensores adicionais ou entradas explícitas de profundidade, mas também melhora significativamente a percepção espacial. Em experimentos de simulação RLBench, o Evo-0 obteve uma taxa de sucesso 15% maior do que o modelo base pi0 em cinco tarefas que exigem operações precisas, e uma melhoria de 31% em relação ao openvla-oft.
Concretamente, o Evo-0 utiliza o VGGT como codificador espacial, introduzindo os tokens t3^D extraídos pelo VGGT, que contêm informações geométricas como contexto de profundidade e relações espaciais. Por meio de um módulo de fusão de atenção cruzada, o modelo pode combinar efetivamente os tokens visuais bidimensionais extraídos com os tokens tridimensionais, melhorando assim a compreensão da disposição espacial e das relações entre objetos. Essa abordagem mantém a eficiência do treinamento, enquanto também aumenta a flexibilidade e a facilidade de implantação.
Nos experimentos no mundo real, o Evo-0 se saiu bem ao lidar com tarefas complexas de espaço, incluindo colocação centralizada de objetivos, encaixe e captura densa, superando o modelo base em todos os casos, com uma taxa média de sucesso aumentada em 28,88%. Em particular, o Evo-0 demonstrou vantagens significativas na compreensão e capacidade de manipulação de relações espaciais complexas.
Em resumo, o Evo-0 fornece uma nova rota viável para estratégias robóticas gerais por meio de uma fusão inteligente de informações espaciais. Essa pesquisa não apenas despertou amplo interesse na comunidade acadêmica, mas também trouxe novas possibilidades para aplicações práticas na área de robótica.