Stability AI franchit une nouvelle fois les barrières technologiques en lançant le nouveau modèle Stable Diffusion 3.5 Medium. Cet outil de création d'images par IA, destiné au grand public, est non seulement entièrement gratuit et ouvert à un usage commercial, mais surtout, il réalise un équilibre parfait entre hautes performances et accessibilité.

Ce modèle, basé sur l'architecture du transformateur de diffusion multimodale (MMDiT-X), se caractérise par une conception épurée de 2,5 milliards de paramètres, ce qui résout intelligemment le problème des contraintes matérielles pour les utilisateurs ordinaires. Ne nécessitant que 9,9 Go de VRAM, il fonctionne de manière fluide sur la plupart des cartes graphiques grand public, concrétisant ainsi la vision d'"accessible à tous".

111.jpg

Sur le plan de l'innovation technologique, le modèle intègre trois encodeurs de texte pré-entraînés et introduit la technique de normalisation QK pour améliorer la stabilité de l'entraînement. Il est particulièrement important de noter que la conception de modules d'attention double dans les 12 premières couches de transformation permet au modèle d'améliorer considérablement la qualité de l'image, la mise en page et la compréhension des invites complexes.

Le processus d'entraînement du modèle combine des données synthétiques et des données publiques sélectionnées, en utilisant une stratégie d'entraînement mixte avec amélioration progressive de la résolution, garantissant ainsi la diversité et la qualité des images générées. Comparé aux modèles moyens similaires, il présente des avantages évidents en termes d'effet de génération d'images et de vitesse de traitement.

Cependant, les utilisateurs doivent prendre en compte certains détails lors de l'utilisation : des invites trop longues peuvent entraîner des défauts sur les bords de l'image ; il est conseillé d'utiliser un échantillonnage avec saut de couches pour optimiser l'intégrité structurelle de l'image ; il faut également noter que, en raison des différences de distribution des données d'entraînement, les mêmes invites peuvent produire des résultats créatifs différents.

Le lancement de ce modèle offre non seulement aux créateurs individuels et aux jeunes entreprises un outil de création IA pratique, mais témoigne également de la détermination de Stability AI à promouvoir la généralisation des technologies IA. Que ce soit pour la création artistique ou le développement éducatif, il offrira des possibilités de création IA à un public plus large.

Adresse de téléchargement du modèle : https://huggingface.co/stabilityai/stable-diffusion-3.5-medium