SAM ist ein fortschrittliches Modell zur Video-Objektsegmentierung, das optischen Fluss und RGB-Informationen kombiniert, um sich bewegende Objekte in Videos zu erkennen und zu segmentieren. Das Modell erzielt sowohl bei Einzelobjekt- als auch bei Mehrfachobjekt-Benchmarks eine deutliche Leistungssteigerung, wobei gleichzeitig die Identität der Objekte erhalten bleibt.