Le modèle Stable Diffusion 3 est sorti, adoptant l'architecture DiT similaire à celle de Sora, avec des améliorations de qualité significatives. Les auteurs affirment que Stable Diffusion 3 surpasse les autres systèmes de génération d'images à partir de texte, avec des tailles de modèles variant de 800 millions à 8 milliards de paramètres. L'architecture de SD3 est basée sur une collaboration entre les membres clés du développement de Sora et un professeur adjoint de l'Université de New York, utilisant l'architecture MMDiT qui surpasse UViT et DiT. Stable Diffusion 3 utilise la formule Rectified Flow (RF), et une variante RF repondérée, proposée par les auteurs, montre des améliorations de performances continues. Des études approfondies ont été menées sur le modèle, utilisant un encodeur de texte flexible pour des améliorations, et des comparaisons de performances avec d'autres modèles ont été effectuées.