HiDiffusion es un modelo de difusión preentrenado que aumenta la resolución y la velocidad de los modelos de difusión con solo agregar una línea de código. El modelo utiliza Resolution-Aware U-Net (RAU-Net) y Modified Shifted Window Multi-head Self-Attention (MSW-MSA) para ajustar dinámicamente el tamaño del mapa de características y resolver problemas de duplicación de objetos, y para optimizar la atención de ventana y reducir la carga computacional. HiDiffusion puede ampliar la resolución de generación de imágenes a 4096×4096, manteniendo al mismo tiempo una velocidad de inferencia entre 1,5 y 6 veces superior a la de los métodos anteriores.