Le modèle Stable Diffusion 3 est sorti, adoptant l'architecture DiT similaire à celle de Sora, avec des améliorations de qualité significatives. Les auteurs affirment que Stable Diffusion 3 surpasse les autres systèmes de génération d'images à partir de texte, avec des tailles de modèles variant de 800 millions à 8 milliards de paramètres. L'architecture de SD3 est basée sur une collaboration entre les membres clés du développement de Sora et un professeur adjoint de l'Université de New York, utilisant l'architecture MMDiT qui surpasse UViT et DiT. Stable Diffusion 3 utilise la formule Rectified Flow (RF), et une variante RF repondérée, proposée par les auteurs, montre des améliorations de performances continues. Des études approfondies ont été menées sur le modèle, utilisant un encodeur de texte flexible pour des améliorations, et des comparaisons de performances avec d'autres modèles ont été effectuées.
Lancement du modèle Stable Diffusion 3 : détails architecturaux et impact potentiel sur la reproduction de Sora

机器之心
54
Cet article provient d'AIbase Daily
Bienvenue dans la section [AI Quotidien] ! Voici votre guide pour explorer le monde de l'intelligence artificielle chaque jour. Chaque jour, nous vous présentons les points forts du domaine de l'IA, en mettant l'accent sur les développeurs, en vous aidant à comprendre les tendances technologiques et à découvrir des applications de produits IA innovantes.
—— Créé par le groupe AIbase Daily
© Tous droits réservés AIbase基地 2024, cliquez pour voir la source -