DL3DV-10K ist ein umfangreicher Datensatz mit über 10.000 hochwertigen Videos. Jedes Video wurde manuell mit Szenenschlüsselpunkten und Komplexitätsangaben annotiert und bietet Kamerapose, NeRF-Tiefenabschätzung, Punktwolken und 3D-Netze. Der Datensatz eignet sich für die Forschung an universellen NeRF-Modellen, zur konsistenten Szenenverfolgung, für visuelle Sprachmodelle und andere computergestützte Sehanwendungen.