CoTracker é um modelo baseado em Transformer que rastreia pontos densos de forma conjunta em sequências de vídeo. Ao contrário da maioria dos métodos de ponta existentes, que rastreiam pontos de forma independente, ignorando as correlações entre eles, demonstramos que o rastreamento conjunto melhora significativamente a precisão e a robustez do rastreamento. Apresentamos ainda diversas inovações técnicas, incluindo o conceito de trajetórias virtuais, que permite ao CoTracker rastrear até 70.000 pontos conjuntamente. Além disso, o CoTracker opera causalmente em janelas de tempo curtas (portanto, adequado para tarefas online), mas é treinado desdobrando as janelas em sequências de vídeo mais longas, o que melhora significativamente o rastreamento de longo prazo. Apresentamos resultados de rastreamento qualitativamente impressionantes, onde os pontos podem ser rastreados por longos períodos, mesmo com oclusão ou fora do campo de visão. Quantitativamente, o CoTracker supera todos os rastreadores recentes em benchmarks padrão, muitas vezes com uma vantagem significativa.