L'équipe Ostris a publié Flex.2-preview, un modèle de diffusion texte-vers-image basé sur 800 millions de paramètres, spécialement conçu pour l'intégration dans le workflow ComfyUI. Selon AIbase, ce modèle excelle dans la génération d'images contrôlées par les lignes, les poses et la profondeur, prenant en charge les contrôles universels et la fonction de retouche d'image. Il poursuit l'évolution par affinage, depuis Flux.1Schnell jusqu'à OpenFlux.1 et Flex.1-alpha. Flex.2-preview est désormais open source sur Hugging Face, et grâce à sa licence Apache2.0 et son intégration flexible dans les workflows, il est rapidement devenu un point central de la communauté artistique de l'IA.

image.png

Fonctionnalités clés : Contrôle universel et intégration transparente dans le workflow

Flex.2-preview redéfinit la génération d'images texte-vers-image grâce à ses puissantes capacités de contrôle et à sa prise en charge native de ComfyUI. AIbase a résumé ses principales fonctionnalités :

Prise en charge des contrôles universels : intégration des contrôles de lignes (Canny), de poses et de profondeur, permettant aux utilisateurs de guider précisément la génération d'images, par exemple, en générant des scènes de style 3D à partir d'un map de profondeur ou des illustrations détaillées à partir d'un croquis.

Capacités de retouche d'image : prise en charge de la retouche d'image avancée (inpainting), permettant aux utilisateurs de spécifier des zones à remplacer ou à réparer via un masque, par exemple, remplacer un chien par « un chien robot blanc assis sur un banc ».

Intégration au workflow ComfyUI : le modèle est optimisé pour ComfyUI, offrant une prise en charge des workflows nodaux, simplifiant la configuration de tâches complexes, telles que la combinaison de texte-vers-image, d'image-vers-image et de réseaux de contrôle.

Génération efficace : grâce à son architecture simplifiée de 800 millions de paramètres, la génération d'images haute résolution 1024x1024 ne nécessite que 50 étapes d'inférence, ce qui convient aux GPU grand public de 16 Go de VRAM.

AIbase a remarqué que lors des tests communautaires, les utilisateurs ont utilisé les nœuds de contrôle de Flex.2-preview pour générer une « vue nocturne de ville cyberpunk », réalisant une composition très cohérente grâce au contrôle de la profondeur et des lignes, démontrant ainsi son potentiel en matière de conception créative.

ostris_Flex.2-preview 昨天发布了,这是个8B大小的文本生成图像的扩散模型。这个 (1).jpg

Architecture technique : de Flux.1Schnell à Flex.2

Flex.2-preview est basé sur Flux.1Schnell de Black Forest Labs, après plusieurs étapes d'ajustement fin et d'optimisation. AIbase analyse son évolution technique :

Optimisation de l'architecture : hérite de l'architecture du transformateur à flux rectifié (Rectified Flow Transformer) de Flux.1, avec 8 blocs de double transformateur (plus léger que les 19 de Flux.1-dev), éliminant la dépendance à la guidance libre du classificateur (CFG) grâce à l'intégrateur de guidance (Guidance Embedder).

Intégration du contrôle et de la retouche : utilise une conception d'espace latent à 16 canaux, combinant le potentiel de bruit, l'image retouchée codée par l'auto-encodeur variationnel (VAE), le masque et les entrées de contrôle, soit 49 canaux au total, prenant en charge un workflow de contrôle et de retouche flexible.

Prise en charge de l'open source et de l'ajustement fin : grâce à AI-Toolkit, qui fournit des outils d'ajustement fin, les développeurs peuvent contourner l'intégrateur de guidance pour effectuer un entraînement personnalisé, générant des modèles de style ou de thème spécifiques, tout en conservant la convivialité commerciale de la licence Apache2.0.

Inférence efficace : prend en charge les précisions FP8 et bfloat16, réduisant l'occupation mémoire grâce à la quantification 8 bits de TorchAo, optimisant la vitesse d'inférence sur des matériels tels que le RTX3090.

AIbase estime que la conception légère et les capacités de contrôle universel de Flex.2-preview en font un choix idéal pour l'écosystème ComfyUI, offrant une plus grande flexibilité que Flux.1Schnell dans les workflows complexes.

Cas d'utilisation : de la création artistique à la conception commerciale

La polyvalence de Flex.2-preview le rend adapté à de nombreux scénarios créatifs et commerciaux. AIbase résume ses principales applications :

Art numérique et illustration : les artistes peuvent générer rapidement des concepts artistiques ou des illustrations grâce aux contrôles de lignes et de profondeur, idéal pour les graphismes de jeux et la prévisualisation d'animations.

Publicité et conception de marque : permet d'ajuster rapidement les supports publicitaires, par exemple en remplaçant les produits ou les arrière-plans, tout en maintenant la cohérence de la marque.

Cinéma et création de contenu : prend en charge la conception de personnages ou la génération de scènes basées sur le contrôle de la pose, accélérant le développement des storyboards et des effets visuels.

Éducation et prototypage : offre une solution de génération d'images à faible coût pour l'enseignement ou le prototypage de produits, permettant aux étudiants et aux startups d'itérer rapidement leurs idées visuelles.

Les retours de la communauté montrent que Flex.2-preview, lors du traitement d'invites complexes (par exemple, « un mécanicien steampunk répare un robot dans une usine »), génère des images plus détaillées et plus précises que OpenFlux.1, notamment en ce qui concerne les mains et la génération de texte, se rapprochant du niveau de MidJourney. AIbase observe que sa capacité d'intégration avec ControlNet de XLabs renforce encore la diversité des workflows.

Guide de démarrage : déploiement rapide et intégration avec ComfyUI

AIbase a constaté que le déploiement de Flex.2-preview est extrêmement convivial pour les utilisateurs de ComfyUI, nécessitant une VRAM de 16 Go (RTX3060 ou supérieur recommandé). Les développeurs peuvent suivre les étapes suivantes pour démarrer rapidement :

Télécharger Flex.2-preview.safetensors depuis Hugging Face (huggingface.co/ostris/Flex.2-preview) et le placer dans ComfyUI/models/diffusion_models/ ;

S'assurer que ComfyUI est mis à jour vers la dernière version (via « Update All » dans ComfyUI Manager) et installer les modèles CLIP nécessaires (t5xxl_fp16.safetensors et clip_l.safetensors) et le VAE (ae.safetensors) ;

Télécharger le fichier flex2-workflow.json fourni officiellement et le faire glisser dans ComfyUI pour charger le workflow, configurer les invites et les images de contrôle (comme les maps de profondeur ou les croquis) ;

Exécuter l'inférence, ajuster control_strength (0,5 recommandé) et guidance_scale (3,5 recommandé) pour générer des images 1024x1024.

La communauté recommande d'utiliser le code d'exemple Diffusers fourni ou le nœud Flex2Conditioning de ComfyUI pour optimiser les résultats de génération. AIbase rappelle que pour la première exécution, il faut s'assurer que les bibliothèques torch, diffusers et transformers sont installées et que les connexions des nœuds dans le workflow sont complètes.

Comparaison des performances : surpassant les versions précédentes et la concurrence

Flex.2-preview surpasse nettement ses prédécesseurs OpenFlux.1 et Flux.1Schnell en termes de performances. AIbase a rassemblé une comparaison avec les modèles principaux :

Qualité de l'image : dans l'évaluation VBench, le score CLIP de Flex.2-preview (0,82) se rapproche de celui de Flux.1-dev (0,84), surpassant Flux.1Schnell (0,79), notamment en ce qui concerne les détails des mains et les compositions complexes.

Précision du contrôle : combiné à XLabs ControlNet, Flex.2 présente une cohérence supérieure d'environ 8 % à InstantX Flux.1-dev-Controlnet-Union-alpha dans les tâches de contrôle Canny et de profondeur.

Vitesse d'inférence : la génération d'images 1024x1024 (50 étapes) prend en moyenne 20 secondes (RTX3090, FP8), soit environ 15 % plus rapide que Flux.1-dev, ce qui convient aux itérations rapides.

Occupation des ressources : ses 800 millions de paramètres et la quantification FP8 réduisent ses besoins en mémoire à 60 % de ceux de Flux.1-dev, ce qui le rend plus adapté aux matériels grand public.

AIbase estime que l'équilibre des performances de Flex.2-preview le rend unique parmi les modèles open source, particulièrement adapté aux workflows nécessitant une grande précision de contrôle et une génération rapide.

Réactions de la communauté et axes d'amélioration

Après sa publication, Flex.2-preview a reçu des éloges de la communauté pour ses capacités de contrôle flexibles et son esprit open source. Les développeurs ont déclaré qu'il « exploite pleinement le potentiel des workflows ComfyUI », ses performances étant particulièrement impressionnantes dans les tâches de création artistique et de retouche. Cependant, certains utilisateurs ont indiqué que la compréhension sémantique des invites complexes nécessitait des améliorations, suggérant de renforcer les capacités de traitement des invites de l'encodeur T5. La communauté attend également que Flex.2 prenne en charge la génération vidéo et une intégration plus large de ControlNet (comme l'estimation de la pose). L'équipe Ostris a répondu que la prochaine version optimisera le traitement des invites multimodales et introduira un ajustement dynamique du seuil, améliorant ainsi la stabilité de la génération. AIbase prévoit que Flex.2 pourrait être combiné aux modules de contrôle de Hailuo Image ou du moteur 3D HunYuan pour construire un écosystème de création multimodale.

Perspectives d'avenir : l'évolution continue de l'art IA open source

La publication de Flex.2-preview témoigne de l'innovation d'Ostris dans le domaine de la génération d'images IA open source. AIbase estime que son évolution de Flux.1Schnell à Flex.2 montre le potentiel du développement communautaire, notamment ses capacités d'intégration dans l'écosystème ComfyUI offrant des possibilités infinies aux développeurs. Avec l'itération continue d'AI-Toolkit, Flex.2 devrait devenir un modèle standard pour l'ajustement fin et la génération personnalisée. La communauté étudie déjà la possibilité de le combiner au protocole MCP pour construire un workflow artistique IA unifié, similaire à la plateforme en ligne RunComfy. AIbase attend avec impatience la sortie de la version officielle de Flex.2 en 2025, notamment en ce qui concerne la prise en charge de la multi-résolution et la génération en temps réel.

Adresse du projet : https://huggingface.co/ostris/Flex.2-preview