Le grand modèle de génération d'images à partir de texte de Tencent, HunYuanDiT, a récemment bénéficié d'une mise à jour avec le lancement d'une version 6 Go de mémoire vidéo, permettant ainsi aux utilisateurs d'ordinateurs personnels de l'utiliser facilement. Cette version est compatible avec les plugins LoRA et ControlNet via la bibliothèque Diffusers, et prend désormais en charge l'interface graphique Kohya, facilitant ainsi le développement de modèles LoRA personnalisés. HunYuanDiT a été mis à niveau vers la version 1.2, améliorant la qualité et la composition des images.
Parallèlement, Tencent a publié en open source HunYuan Captioner, un modèle d'annotation d'images pour la génération d'images à partir de texte. Ce modèle prend en charge le chinois et l'anglais et est optimisé pour les scénarios de génération d'images à partir de texte. Il comprend plus précisément la sémantique chinoise et produit des descriptions d'images structurées, complètes et précises. Il peut également identifier les personnalités et les lieux célèbres, et permet aux développeurs d'ajouter des connaissances contextuelles personnalisées.
De plus, la publication en open source de HunYuan Captioner permet aux chercheurs et aux annotateurs de données du monde entier d'améliorer la qualité des descriptions d'images, générant ainsi des descriptions plus complètes et précises, et améliorant ainsi les performances des modèles. Les ensembles de données générés peuvent être utilisés pour entraîner des modèles basés sur HunYuanDiT, ainsi que d'autres modèles de vision.
Les trois principales mises à jour de HunYuanDiT incluent le lancement d'une version à faible consommation de mémoire vidéo, l'intégration de l'interface Kohya et la mise à niveau du modèle vers la version 1.2. Ces améliorations facilitent encore davantage l'utilisation et améliorent la qualité des images. HunYuanDiT génère des images de meilleure qualité, mais l'exigence de mémoire vidéo élevée avait jusqu'à présent rebuté de nombreux développeurs. Désormais, la version à faible consommation de mémoire vidéo nécessite seulement 6 Go de VRAM, et grâce à une collaboration avec Hugging Face, cette version et les plugins associés sont compatibles avec la bibliothèque Diffusers, simplifiant ainsi l'utilisation.
Kohya est un service d'entraînement de modèles légers et open source, offrant une interface graphique largement utilisée pour l'entraînement de modèles de génération d'images à partir de texte basés sur la diffusion. Les utilisateurs peuvent effectuer un réglage fin complet du modèle et un entraînement LoRA via Kohya, sans avoir besoin de coder.
HunYuan Captioner construit un système de description d'images structuré, améliore la complétude des descriptions grâce à de multiples sources et intègre de nombreuses connaissances contextuelles, ce qui rend les descriptions plus précises et complètes. Ces optimisations ont fait de HunYuanDiT l'un des modèles open source DiT chinois les plus populaires, avec plus de 2,6k étoiles sur Github.
Site officiel
https://dit.hunyuan.tencent.com/
Code
https://github.com/Tencent/HunyuanDiT
Modèle
https://huggingface.co/Tencent-Hunyuan/HunyuanDiT
Article scientifique
https://tencent.github.io/HunyuanDiT/asset/Hunyuan_DiT_Tech_Report_05140553.pdf