Ego-Exo4D é um conjunto de dados e desafio de benchmark de vídeo multimodais e multiperspectivas, focando em vídeos egocêntricos e exocêntricos de atividades humanas habilidosas. Ele suporta a pesquisa de percepção de máquina multimodal em atividades da vida diária. O conjunto de dados foi coletado por 839 voluntários com câmeras em 13 cidades ao redor do mundo, capturando 1422 horas de vídeos de atividades humanas habilidosas. Ele fornece três conjuntos de dados de linguagem natural emparelhados com os vídeos: comentários de especialistas, narrativas em estilo tutorial fornecidas pelos participantes e descrições de ações atômicas de uma frase. O Ego-Exo4D também captura múltiplas perspectivas e várias modalidades sensoriais, incluindo múltiplos pontos de vista, sete matrizes de microfones, dois IMUs, um barômetro e um magnetômetro. A coleta de dados seguiu rigorosamente políticas de privacidade e ética, com consentimento formal dos participantes. Para mais informações, visite o site oficial.