Sana es un framework de imagen a texto desarrollado por NVIDIA, capaz de generar imágenes de hasta 4096×4096 píxeles de resolución de manera eficiente. Este modelo sintetiza imágenes de alta resolución y alta calidad a una velocidad sorprendente, manteniendo una potente capacidad de alineación texto-imagen, y puede desplegarse en una GPU para portátil. El modelo Sana se basa en un transformador de difusión lineal, utilizando un codificador de texto preentrenado y un codificador de características latentes comprimidas espacialmente. Admite emojis, chino, inglés y sugerencias mixtas.