ODIN (Omni-Dimensional INstance segmentation) é um modelo que utiliza arquitetura de transformador para segmentar e rotular imagens RGB 2D e nuvens de pontos 3D. Ele diferencia as operações de características 2D e 3D por meio da fusão alternada de informações dentro da visão 2D e entre as visões 2D e 3D. O ODIN alcançou desempenho de ponta em benchmarks de segmentação de instâncias 3D ScanNet200, Matterport3D e AI2THOR, e desempenho competitivo em ScanNet, S3DIS e COCO. Superou todos os trabalhos anteriores quando uma nuvem de pontos amostrada de malhas 3D foi usada em vez de nuvens de pontos 3D percebidas. Ao atuar como mecanismo de percepção 3D em uma arquitetura de agente corporificado guiado por instruções, estabeleceu um novo estado da arte no benchmark de ações de diálogo TEACh. Nosso código e checkpoints podem ser encontrados no site do projeto.