Sana ist ein von NVIDIA entwickeltes Text-zu-Bild-Generierungsframework, das hocheffizient Bilder mit einer Auflösung von bis zu 4096 × 4096 Pixel generieren kann. Sana zeichnet sich durch seine Geschwindigkeit und die starke Ausrichtung von Text und Bild aus. Es ist auf Laptops mit GPU einsetzbar und stellt einen wichtigen Fortschritt in der Bildgenerierungstechnologie dar. Das Modell basiert auf einem linearen Diffusions-Transformator, verwendet einen vorab trainierten Text-Encoder und einen räumlich komprimierten latenten Merkmals-Encoder, um Bilder basierend auf Text-Prompts zu generieren und zu modifizieren. Der quelloffene Code von Sana ist auf GitHub verfügbar. Seine Forschungs- und Anwendungsperspektiven sind vielversprechend, insbesondere in den Bereichen Kunst, Bildung und Modellforschung.