Le groupe Qwen de Alibaba a officiellement rendu son modèle d'édition d'images le plus récent Qwen-Image-Edit open source. C'est une autre œuvre majeure de la série Qwen dans les domaines de la génération et de l'édition d'images, après Qwen-Image. En tant que modèle de base d'édition d'images basé sur un transformateur multimodal à 20 milliards de paramètres (MMDiT), Qwen-Image-Edit présente des performances exceptionnelles dans l'édition textuelle précise, l'édition sémantique et l'apparence, et réalise une performance leader dans la mise en page du texte chinois.

Édition textuelle innovante : rendu précis en chinois et en anglais

Qwen-Image-Edit hérite des avantages principaux de Qwen-Image et améliore encore davantage ses capacités de rendu textuel. Qu'il s'agisse de texte en anglais ou en chinois, il permet un édition de texte de haute fidélité, supporte l'ajout, la suppression ou la modification directe du texte dans l'image, tout en préservant la police, la taille et le style originaux. En particulier pour les scénarios en chinois, le modèle peut gérer la mise en page multilignes, la génération de texte au niveau des paragraphes ainsi que les exigences complexes de mise en page telles que les couplets de calligraphie. Le taux d'exactitude du rendu d'un seul caractère atteint 97,29 %, ce qui dépasse largement d'autres modèles de premier plan comme Seedream3.0 (53,48 %) et GPT Image1 (68,37 %).

Par exemple, Qwen-Image-Edit peut facilement remplacer "Hope" par "Qwen" sur une affiche, ou corriger un caractère erroné dans une œuvre calligraphique, tout en maintenant l'harmonie visuelle globale de l'image. Cette capacité d'édition précise lui confère un grand potentiel dans le design publicitaire, la promotion de marque et la création de contenu.

image.png

Mécanisme de codage double : équilibre parfait entre sémantique et apparence

L'innovation technique centrale de Qwen-Image-Edit est son mécanisme de codage double. Pendant le processus d'édition d'images, l'image d'entrée est simultanément codée par le modèle Qwen2.5-VL pour extraire les caractéristiques des scènes et relations entre objets au niveau supérieur ; et par un autoencodeur variationnel (VAE) pour coder la reconstruction, préservant les détails visuels de bas niveau tels que les textures et les couleurs. Ce mécanisme garantit que le modèle peut comprendre l'intention sémantique tout en maintenant la fidélité visuelle lors de l'exécution d'instructions d'édition complexes.

Par exemple, dans l'édition sémantique, Qwen-Image-Edit peut ajuster la posture d'une personne dans l'image à "penché pour tenir la patte d'un chien", tout en maintenant l'identité de la personne et le fond. Dans l'édition d'apparence, il peut ajouter avec précision des éléments (comme un panneau avec une réflexion réelle) ou supprimer des détails fins (comme des cheveux), tout en laissant les autres zones inchangées. Cette double gestion « sémantique + apparence » se distingue particulièrement dans des scénarios tels que la création d'IP, le transfert de style et la synthèse de nouveaux points de vue.

Entraînement multi-tâche : cohérence d'édition leader dans l'industrie

Avec un paradigme d'entraînement multi-tâche renforcé, Qwen-Image-Edit prend en charge plusieurs tâches comme la génération d'images à partir de texte (T2I), la génération d'images à partir d'images (I2I) et l'édition d'images guidée par le texte (TI2I). Le modèle obtient des performances SOTA dans des benchmarks d'édition d'images tels que GEdit, ImgEdit et GSO, avec des scores globaux respectifs de 7,56 (en anglais) et 7,52 (en chinois), surpassant des concurrents comme GPT Image1 et FLUX.1Kontext.

Il convient de noter que la capacité d’« édition en chaîne » de Qwen-Image-Edit est particulièrement remarquable. Par exemple, dans le cas de la correction de calligraphie, le modèle peut corriger progressivement les caractères erronés en itérations multiples, tout en maintenant le style global. Cette capacité améliore considérablement l'efficacité de la création et réduit le seuil d'accès aux contenus visuels professionnels.

Open source : impulsion de l'écosystème mondial de création IA

Qwen-Image-Edit est entièrement open source sous licence Apache 2.0. Les utilisateurs peuvent obtenir gratuitement les poids du modèle via des plateformes comme Hugging Face et ModelScope, ou expérimenter en ligne via la fonctionnalité « Image Editing » de Qwen Chat. Alibaba propose également un support natif dans ComfyUI et publie un rapport technique détaillé ainsi qu’un guide rapide pour aider les développeurs à intégrer rapidement le modèle.

Sur les réseaux sociaux, les développeurs ont réagi vivement à la publication de Qwen-Image-Edit, qualifiant le modèle de « ramenant les compétences de rendu chinois et d'édition d'images au niveau commercial », certains allant même jusqu'à dire que ses résultats sont « comparables, voire supérieurs à ceux de GPT-4o et FLUX.1 ». De plus, le modèle prend en charge divers modèles LoRA (comme MajicBeauty LoRA), étendant davantage ses applications dans la génération d'images à haute fidélité.

Scénarios d'utilisation : de la conception créative à la mise en œuvre commerciale

La polyvalence de Qwen-Image-Edit le rend adapté à divers scénarios, notamment :

  • Conception de posters et publicités : génération d'affiches publicitaires percutantes, supportant la mise en page complexe du texte et le transfert de style.
  • Création de contenus IP : génération d'expressions MBTI basées sur un mascotte de marque (comme le capybara de Qwen), tout en maintenant la cohérence du personnage.
  • Éducation et formation : génération rapide d'illustrations et de graphiques de haute qualité, augmentant l'attractivité visuelle du contenu pédagogique.
  • Jeu et cinéma : soutien à la conception de personnages, à la génération de fonds et à la synthèse de nouveaux points de vue, optimisant le processus de développement d'actifs.

Les retours des utilisateurs montrent que l'interface intuitive et les sorties de haute qualité de Qwen-Image-Edit le rendent idéal pour les non-spécialistes du design. Par exemple, un créateur de contenu a déclaré : « Qwen-Image-Edit m'a permis de terminer la conception visuelle marketing en quelques minutes, le rendu du texte est précis, et les résultats sont comparables à ceux de logiciels professionnels. »

En tant que dernière œuvre du groupe Qwen de Alibaba, Qwen-Image-Edit établit un nouveau standard dans le domaine de la génération et de l'édition d'images grâce à ses puissantes capacités d'édition textuelle, son mécanisme de codage double et sa nature open source. Que ce soit pour le leadership en matière de rendu chinois ou la performance équilibrée de l'édition sémantique et de l'apparence, Qwen-Image-Edit démontre sa force en tant que modèle de pointe de l'industrie.

github : https://github.com/QwenLM/Qwen-Image