Recientemente, Nvidia ha lanzado un modelo de generación de imágenes de código abierto llamado Sana. Este modelo solo tiene 60 millones de parámetros, lo que reduce considerablemente el umbral de funcionamiento.
Según se informa, Sana puede generar imágenes con una resolución de 4096×4096 y funcionar en una tarjeta gráfica de 16 GB, generando imágenes de alta calidad con una resolución de 1024×1024 en menos de un segundo. Esta velocidad es destacable entre modelos similares.
El equipo de investigación introdujo un autocodificador de compresión profunda (DC-AE). En comparación con los autocodificadores tradicionales, Sana tiene una relación de compresión de hasta 32 veces, reduciendo considerablemente la cantidad de tokens latentes, lo cual es crucial para generar imágenes de súper alta resolución. En segundo lugar, Sana utiliza un transformador de difusión lineal (DiT), que reemplaza la atención cuadrática tradicional con atención lineal, reduciendo así la complejidad a O(N) y mejorando la capacidad de captura de información local mediante convoluciones profundas de 3×3. Este diseño hace que Sana aumente su tiempo de espera en 1,7 veces al generar imágenes 4K.
En cuanto a la codificación de texto, Sana selecciona el pequeño modelo de lenguaje grande para decodificadores Gemma, en lugar del modelo T5 tradicional. Gemma muestra un rendimiento superior en la comprensión y ejecución de instrucciones complejas, mejorando la alineación entre la imagen y el texto. Además, Sana también optimiza las estrategias de entrenamiento e inferencia, mejorando la consistencia entre el texto y la imagen mediante el etiquetado automático y la selección de descripciones con alta puntuación CLIP. El nuevo algoritmo Flow-DPM-Solver reduce los pasos de inferencia a 14-20, mejorando significativamente el rendimiento.
En términos de rendimiento general, Sana destaca entre varios modelos de difusión avanzados de texto a imagen. Con una resolución de 512×512, el rendimiento de Sana-0.6 es 5 veces mayor que el de PixArt-Σ, y su calidad de generación de imágenes también es excelente. Con una resolución de 1024×1024, Sana-0.6B también tiene una ventaja significativa entre los modelos con menos de 300 millones de parámetros.
Sana-0.6B no solo tiene un rendimiento potente, sino que también puede generar imágenes rápidamente en una GPU de portátil de 16 GB, ayudando a los creadores de contenido a lograr sus objetivos de creación de manera eficiente. Se dice que Sana-0.6B también es competitivo con Flux-12B en términos de rendimiento, con solo 1/20 de la cantidad de parámetros y una velocidad 100 veces más rápida.
Curiosamente, Sana admite indicaciones en inglés, chino y emojis. Los usuarios pueden introducir poemas chinos para generar imágenes artísticas relacionadas. Además, Sana también tiene cierta seguridad; cuando el usuario introduce palabras inapropiadas, el sistema las reemplaza automáticamente con un corazón ❤️, evitando así la generación de contenido inapropiado.
Por ejemplo, al introducir la indicación "un gatito jugando en el césped, estrellas 🌟" en AIbase, la velocidad de generación es rápida y el efecto es excelente.
Por ejemplo, al dar la indicación "un lindo 🐼 comiendo 🎋, estilo de pintura de tinta china", se puede ver que el modelo puede reconocer con precisión los emojis.
Cabe mencionar que Sana ya cuenta con el apoyo oficial de ComfyUI y está equipado con una herramienta de entrenamiento Lora. Esto hace que el uso sea más conveniente y la utilidad se incrementa considerablemente. Los interesados pueden probarlo por sí mismos.
Enlace al proyecto: https://nv-sana.mit.edu/
Puntos clave:
🌟 **Generación eficiente**: Sana puede generar rápidamente imágenes de alta calidad con una resolución de hasta 4096×4096, adecuado para usar en una GPU de portátil común.
⚙️ **Diseño innovador**: El autocodificador de compresión profunda y el transformador de difusión lineal mejoran considerablemente la velocidad y la calidad de generación.
🚀 **Rendimiento excelente**: Sana destaca en varias pruebas, con un rendimiento significativamente superior a otros modelos avanzados, lo que permite una creación de contenido rápida.