Sora ist ein textgesteuertes Video-Generierungs-Diffusionsmodell, das auf einem umfangreichen Datensatz trainiert wurde. Es kann hochauflösende Videos mit einer Länge von bis zu einer Minute generieren und deckt ein breites Spektrum an visuellen Datentypen und Auflösungen ab. Durch das Training im komprimierten latenten Raum von Videos und Bildern, aufgeteilt in räumlich-zeitliche Patches, ermöglicht Sora skalierbare Videogenerierung. Sora zeigt zudem Fähigkeiten zur Simulation der physischen und digitalen Welt, wie z. B. dreidimensionale Konsistenz und Interaktion, und deutet auf das Potenzial hin, durch Skalierung von Videogenerierungsmodellen leistungsfähige Simulatoren zu entwickeln.