Récemment, l'équipe Hunyuan de Tencent a officiellement rendu open source HunyuanImage 2.1, ce modèle de génération d'images à partir de texte (DiT) avec 17 milliards de paramètres a rapidement gravi le classement Artificial Analysis Image Arena, dépassant HiDream-I1-Dev et Qwen-Image, devenant ainsi le nouveau leader parmi les modèles à poids ouverts.

Ce modèle prend en charge la sortie native à une résolution de 2048x2048 et améliore considérablement les capacités de génération de texte, notamment dans le support des langues chinoise et anglaise ainsi que dans la compréhension sémantique complexe. Selon les dernières discussions technologiques et les publications officielles, cette version mise à jour obtient un taux de victoire proche des produits commerciaux fermés lors des évaluations professionnelles, marquant une nouvelle ère pour les technologies d'images AI open source, avec une résolution élevée et une fidélité accrue. Cela devrait aider les designers et les développeurs à accroître significativement leur efficacité créative.

HunyuanImage 2.1 est le nouveau modèle à poids ouverts leader.jpg

Améliorations principales du modèle : haute résolution 2K et intégration intelligente du texte

HunyuanImage 2.1 réalise un saut qualitatif par rapport à la version précédente 2.0, concernant ses capacités d'alignement entre texte et image. Grâce à un ensemble de données volumineux et à une annotation structurée par plusieurs modèles experts, ce modèle renforce la cohérence sémantique et la généralisation scénarique, prenant en charge la génération d'images sous des instructions complexes avec plusieurs sujets, comme le contrôle précis de la posture, de l'expression et des détails de la scène. Les tests officiels montrent qu'il atteint une précision supérieure à 95 % lors de la génération d'images contenant du texte, bien au-delà des modèles open source similaires.

En outre, le modèle intègre un module Refiner (régulateur), qui améliore davantage la netteté des images et réduit les artefacts ; le PromptEnhancer (amplificateur de prompt) optimise les prompts d'entrée pour permettre une inférence efficace. La dernière version quantifiée (FP8) est désormais disponible, nécessitant seulement 24 Go de mémoire GPU pour générer des images à 2K, réduisant ainsi considérablement les exigences matérielles. Les retours des développeurs indiquent que ce modèle excelle particulièrement dans la représentation des scènes fantastiques animées ou des descriptions réaliste, avec un rendu détaillé (comme les reflets lumineux et les interactions multiples d'objets), atteignant une vitesse de génération en quelques secondes.

Performance et comparaison : le roi open source contre les géants fermés

Dans l'évaluation Image Arena d'Artificial Analysis, HunyuanImage 2.1, en tant que modèle open source, a un taux de victoire relatif de -1,36 % par rapport au modèle fermé Seedream3.0 (c'est-à-dire proche de son niveau), et dépasse de 2,89 % le modèle open source Qwen-Image. Le test comprenait 1000 prompts textuels évalués par plus d'une centaine d'évaluateurs professionnels, couvrant divers aspects tels que les détails géométriques, l'alignement des conditions, et la qualité des textures. Par rapport à HiDream-I1-Dev, ce modèle se distingue davantage dans le rendu du texte et le soutien multilingue, étant particulièrement doué pour générer des enseignes lumineuses lisibles ou des textes artistiques.

Les tests de la communauté montrent que HunyuanImage 2.1 obtient un taux d'exactitude élevé sur l'anatomie humaine (comme les détails des mains) et les environnements complexes, atteignant un niveau industriel avancé, évitant ainsi les problèmes de "déformations" typiques des modèles traditionnels. La mise à jour récente du classement (16 septembre 2025) confirme sa position de tête, propulsant l'écosystème open source vers une qualité proche de celle des produits commerciaux.

Licence et disponibilité : une considération équilibrée pour l'accès mondial

Même si c'est un modèle à poids ouverts, HunyuanImage 2.1 utilise la licence « Tencent Community License », visant à protéger les droits de propriété intellectuelle : interdiction d'utilisation dans les produits ou services ayant plus d'un million d'utilisateurs actifs mensuels ; interdiction dans les régions européennes, britanniques et coréennes ; et interdiction d'utiliser ses sorties pour améliorer des modèles non-Hunyuan. Cette licence garantit l'utilisation sécurisée du modèle tout en encourageant les applications académiques et commerciales de petite taille.

Aujourd'hui, ce modèle est accessible via Hunyuan AI Studio en Chine continentale et sera bientôt disponible sur Tencent Cloud. Les utilisateurs internationaux peuvent consulter la version démo sur Hugging Face, ou générer des images via la plateforme fal, avec un prix de 100 dollars pour 1000 images. Le dépôt GitHub fournit du code PyTorch, des poids pré-entraînés et des scripts de raisonnement, supportant l'intégration ComfyUI et la fine-tuning LoRA. La communauté de développeurs a lancé des variantes quantifiées GGUF et MXFP4, adaptées aux environnements à faible VRAM (comme la RTX3060), et partagé des flux de travail compatibles NSFW.

Retours des développeurs et impact d'application : une augmentation exponentielle de l'efficacité créative

Dans les derniers débats de la communauté technologique, les développeurs saluent HunyuanImage 2.1 comme un "outil incontournable pour la génération d'images open source", notamment dans les scènes d'AI beauté, de gravure et de prévisualisation d'actifs 3D. Les utilisateurs signalent que l'utilisation de la précision bf16 combinée à la fine-tuning LoRA permet de générer des images pleines d'émotions, évitant la sur-ingénierie. Comparé à Flux.1 ou Qwen Image, il possède un avantage supplémentaire dans la création d'ambiance et le contrôle des détails, avec une vitesse de génération de variantes notablement améliorée.

Cette publication renforce la compétitivité de Tencent dans le domaine multimodal de l'IA, et devrait s'étendre à la modification d'images et à la génération vidéo. Les analystes du secteur soulignent que le marché des modèles open source de génération d'images à partir de texte dépassera 50 milliards de dollars d'ici 2028, et le lancement de HunyuanImage 2.1 pourrait accélérer la démocratisation des outils d'IA de conception mondiaux.

Avenir : l'infinie extension de l'IA multimodale

Tencent affirme qu'elle développe un modèle de génération d'images multimodales natif, qui prendra en charge des séquences plus longues et une création interactive. AIbase continuera à suivre ses mises à jour, ses cas communautaires et les itérations des benchmarks, aidant les créateurs à saisir cette révolution open source.