Sana est un framework de génération d'images à partir de texte développé par NVIDIA, capable de générer efficacement des images jusqu'à une résolution de 4096×4096. Sa rapidité et ses capacités exceptionnelles d'alignement texte-image, même déployable sur le GPU d'un ordinateur portable, représentent une avancée majeure dans la technologie de génération d'images. Ce modèle, basé sur un transformateur de diffusion linéaire, utilise un encodeur de texte pré-entraîné et un encodeur de caractéristiques latentes à compression spatiale pour générer et modifier des images à partir d'invites textuelles. Le code source de Sana est disponible sur GitHub, ouvrant des perspectives de recherche et d'application considérables, notamment dans la création artistique, les outils pédagogiques et la recherche sur les modèles.