Qwen-Image es el primer modelo base de generación de imágenes de la serie Qwen, un modelo de transformador multimodal de difusión (MMDiT) con 2 mil millones de parámetros. Este logro innovador ha alcanzado avances significativos en la representación de texto complejo y en la edición precisa de imágenes, y ha demostrado un rendimiento excelente en varios benchmarks públicos, convirtiéndose en una nueva estrella en el campo de la generación y edición de imágenes.
Qwen-Image se destaca por su potente capacidad de renderizado de texto, admitiendo diseños multilínea, generación de párrafos y presentación de detalles finos, logrando salidas de alta fidelidad tanto en inglés como en chino. Por ejemplo, al renderizar escenas de anime en el estilo de Miyazaki, el modelo puede representar con precisión los letreros de tiendas, las posturas y expresiones de los personajes, e incluso los pequeños textos en toneles de vino son claramente visibles. De igual manera, en el renderizado de pares de versos chinos, Qwen-Image no solo dibuja correctamente los versos izquierdo y derecho y el encabezado, sino que también incorpora efectos de caligrafía de manera ingeniosa, lo cual es asombroso.
En cuanto al renderizado de texto en inglés, Qwen-Image también muestra un desempeño destacado. Ya sea información en ventanas de librerías o gráficos informativos complejos, el modelo puede generar contenido textual con precisión y integrarlo hábilmente en la composición general, mostrando un alto nivel de artística e información. Lo más impresionante es que incluso al procesar textos más pequeños o más numerosos, Qwen-Image mantiene una alta precisión y claridad, como generar con exactitud largos párrafos en hojas de papel o mostrar completamente párrafos escritos a mano en placas de vidrio.
Además del renderizado de texto, Qwen-Image también demuestra una gran habilidad en la edición de imágenes. Gracias a un paradigma de entrenamiento multitarea mejorado, el modelo puede mantener coherencia durante el proceso de edición, apoyando diversas operaciones como transferencia de estilo, adición o eliminación de objetos, mejora de detalles y ajuste de posturas de personas. Esto permite a usuarios comunes realizar ediciones profesionales de imágenes, reduciendo considerablemente la barrera técnica para la creación de contenido visual.
En varios benchmarks públicos, el desempeño de Qwen-Image es notable. Desde GenEval, DPG y OneIG-Bench para la generación general de imágenes, hasta GEdit, ImgEdit y GSO para la edición de imágenes, Qwen-Image obtuvo un rendimiento avanzado, demostrando sus ventajas integrales en la generación y edición de imágenes. En particular, en la representación de texto chino, Qwen-Image supera ampliamente a los modelos más avanzados existentes, destacando su posición única como modelo avanzado de generación de imágenes.
Actualmente, Qwen-Image está disponible como código abierto en plataformas como ModelScope, Hugging Face y GitHub, y ofrece un informe técnico detallado y una demostración. Los usuarios pueden visitar QwenChat (chat.qwen.ai) y seleccionar la función "Generación de imágenes" para experimentar personalmente la magnitud de este poderoso modelo.
ModelScope:https://modelscope.cn/models/Qwen/Qwen-Image
Hugging Face:https://huggingface.co/Qwen/Qwen-Image
GitHub:https://github.com/QwenLM/Qwen-Image
Informe técnico:https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Image/Qwen_Image.pdf
Demo: https://modelscope.cn/aigc/imageGeneration?tab=advanced