A equipe Ostris lançou o Flex.2-preview, um modelo de difusão de texto para imagem baseado em 800 milhões de parâmetros, projetado especificamente para integração com o fluxo de trabalho do ComfyUI. De acordo com o AIbase, o modelo se destaca na capacidade de geração controlada baseada em linhas, poses e profundidade, suportando controle universal e recursos de reparo de imagem, seguindo a trajetória de aprimoramento desde o Flux.1Schnell até o OpenFlux.1 e Flex.1-alpha. O Flex.2-preview já está disponível em código aberto no Hugging Face, e com sua licença Apache2.0 e integração flexível com fluxos de trabalho, rapidamente se tornou o centro das atenções na comunidade de criação de arte com IA.
Funcionalidades principais: Controle universal e integração perfeita com o fluxo de trabalho
O Flex.2-preview redefine a geração de imagem a partir de texto com seu poderoso controle e suporte nativo ao ComfyUI. O AIbase analisou suas principais funcionalidades:
Suporte a controle universal: possui controle integrado de linhas (Canny), poses e profundidade, permitindo que os usuários guiem precisamente a geração de imagens através do controle, como gerar cenas em estilo 3D com base em mapas de profundidade ou ilustrações detalhadas com base em esboços.
Capacidade de reparo de imagem: suporta reparo de imagem avançado (inpainting), permitindo que os usuários especifiquem áreas por meio de máscaras para substituição ou reparo de conteúdo, como substituir um cachorro por "um cachorro robô branco sentado em um banco".
Integração com o fluxo de trabalho do ComfyUI: o modelo foi otimizado para o ComfyUI, oferecendo suporte a fluxos de trabalho baseados em nós, simplificando a configuração de tarefas complexas, como a combinação de texto para imagem, imagem para imagem e redes de controle.
Geração eficiente: com uma arquitetura simplificada baseada em 800 milhões de parâmetros, a geração de imagens de alta resolução de 1024x1024 requer apenas 50 etapas de inferência, adequado para GPUs de nível consumidor com 16 GB de VRAM.
O AIbase observou que, em testes da comunidade, os usuários utilizaram os nós de controle do Flex.2-preview para gerar uma imagem de "paisagem noturna cyberpunk", alcançando uma composição altamente consistente por meio do controle de profundidade e linhas, demonstrando seu potencial em design criativo.
Arquitetura técnica: Evolução do Flux.1Schnell para o Flex.2
O Flex.2-preview é baseado no Flux.1Schnell da Black Forest Labs, após vários estágios de ajuste fino e otimização. A análise do AIbase indica que sua evolução tecnológica inclui:
Otimização da arquitetura: herda a arquitetura do transformador de fluxo retificado (Rectified Flow Transformer) do Flux.1, com 8 blocos de transformadores duplos (mais leve que os 19 do Flux.1-dev), eliminando a dependência da orientação livre do classificador (CFG) por meio do incorporador de orientação (Guidance Embedder).
Integração de controle e reparo: utiliza um design de espaço latente de 16 canais, combinando potencial latente de ruído, imagem de reparo codificada pelo autocodificador variacional (VAE), máscara e entrada de controle, totalizando 49 canais, suportando um fluxo de trabalho de controle e reparo flexível.
Suporte a código aberto e ajuste fino: por meio do AI-Toolkit, oferece ferramentas de ajuste fino, permitindo que os desenvolvedores contornem o incorporador de orientação para treinamento personalizado, gerando modelos de estilos ou temas específicos, mantendo a amigabilidade comercial da licença Apache2.0.
Inferência eficiente: suporta precisão FP8 e bfloat16, reduzindo o uso de memória por meio da quantização de 8 bits do TorchAo e otimizando a velocidade de inferência em hardwares como RTX3090.
O AIbase acredita que o design leve e a capacidade de controle universal do Flex.2-preview o tornam a escolha ideal para o ecossistema ComfyUI, sendo mais flexível que o Flux.1Schnell em fluxos de trabalho complexos.
Cenários de aplicação: Da criação artística ao design comercial
A multifuncionalidade do Flex.2-preview o torna adequado para diversos cenários criativos e comerciais. O AIbase resume suas principais aplicações:
Arte digital e ilustrações: artistas podem gerar rapidamente arte conceitual ou ilustrações por meio do controle de linhas e profundidade, adequado para arte de jogos e pré-visualização de animações.
Publicidade e design de marca: utilize o recurso de reparo de imagem para ajustar rapidamente materiais publicitários, como substituir produtos ou fundos, mantendo a consistência do estilo da marca.
Cinema e criação de conteúdo: suporta o design de personagens ou geração de cenas com base no controle de poses, acelerando o desenvolvimento de storyboards e efeitos visuais.
Educação e prototipagem: fornece uma solução de baixo custo para geração de imagens para ensino ou protótipos de produtos, permitindo que estudantes e startups iterem rapidamente ideias visuais.
O feedback da comunidade indica que o Flex.2-preview, ao lidar com prompts complexos (como "um mecânico steampunk consertando um robô em uma fábrica"), gera imagens com detalhes e precisão de controle superiores ao OpenFlux.1, especialmente na geração de mãos e texto, aproximando-se do nível do MidJourney. O AIbase observou que sua capacidade de integração com o ControlNet do XLabs aumenta ainda mais a diversidade do fluxo de trabalho.
Guia de início rápido: Implantação rápida e integração com o ComfyUI
O AIbase descobriu que a implantação do Flex.2-preview é extremamente amigável para usuários do ComfyUI, com requisitos de hardware de 16 GB de VRAM (recomenda-se RTX3060 ou superior). Os desenvolvedores podem começar rapidamente seguindo estas etapas:
Baixe o Flex.2-preview.safetensors do Hugging Face (huggingface.co/ostris/Flex.2-preview) e coloque-o em ComfyUI/models/diffusion_models/;
Baixe o Flex.2-preview.safetensors do Hugging Face (huggingface.co/ostris/Flex.2-preview) e coloque-o em ComfyUI/models/diffusion_models/;
Certifique-se de que o ComfyUI esteja atualizado para a versão mais recente (por meio de "Update All" no ComfyUI Manager) e instale os modelos CLIP necessários (t5xxl_fp16.safetensors e clip_l.safetensors) e VAE (ae.safetensors);
Baixe o flex2-workflow.json fornecido oficialmente e arraste-o para o ComfyUI para carregar o fluxo de trabalho, configurando o prompt e as imagens de controle (como mapas de profundidade ou esboços);
Execute a inferência, ajuste o control_strength (recomenda-se 0,5) e o guidance_scale (recomenda-se 3,5) para gerar imagens de 1024x1024.
A comunidade recomenda o uso do código de exemplo Diffusers fornecido ou do Flex2Conditioning Node do ComfyUI para otimizar os resultados da geração. O AIbase lembra que, na primeira execução, é necessário garantir a instalação das bibliotecas torch, diffusers e transformers e verificar a integridade da conexão dos nós no fluxo de trabalho.
Comparação de desempenho: Superando gerações anteriores e concorrentes
O Flex.2-preview apresenta desempenho significativamente superior ao seu antecessor, OpenFlux.1 e Flux.1Schnell. O AIbase compilou uma comparação com os modelos principais:
Qualidade da imagem: na avaliação do VBench, a pontuação CLIP do Flex.2-preview (0,82) se aproxima do Flux.1-dev (0,84), superando o Flux.1Schnell (0,79), especialmente em detalhes das mãos e composições complexas.
Precisão do controle: em combinação com o XLabs ControlNet, o Flex.2 apresenta consistência superior em tarefas de controle Canny e profundidade, superando o InstantX Flux.1-dev-Controlnet-Union-alpha em aproximadamente 8%.
Velocidade de inferência: a geração de imagens de 1024x1024 (50 etapas) leva em média 20 segundos (RTX3090, FP8), cerca de 15% mais rápido que o Flux.1-dev, adequado para iteração rápida.
Uso de recursos: 800 milhões de parâmetros e quantização FP8 reduzem sua necessidade de memória para apenas 60% do Flux.1-dev, mais adequado para hardware de nível consumidor.
O AIbase acredita que o equilíbrio de desempenho do Flex.2-preview o torna único entre os modelos de código aberto, especialmente adequado para fluxos de trabalho que exigem alta precisão de controle e geração rápida.
Reação da comunidade e direções de melhoria
Após o lançamento do Flex.2-preview, a comunidade elogiou sua capacidade de controle flexível e espírito de código aberto. Os desenvolvedores o descrevem como "levando o potencial do fluxo de trabalho do ComfyUI ao extremo", com desempenho impressionante em tarefas de criação artística e reparo. No entanto, alguns usuários relataram que a compreensão semântica do modelo para prompts complexos ainda precisa de melhorias, sugerindo o aprimoramento da capacidade de processamento de prompts do codificador T5. A comunidade também espera que o Flex.2 suporte a geração de vídeo e uma integração mais ampla do ControlNet (como estimativa de pose). A equipe Ostris respondeu que a próxima versão otimizará o processamento de prompts multimodais e introduzirá o ajuste dinâmico de limite, melhorando ainda mais a estabilidade da geração. O AIbase prevê que o Flex.2 pode ser combinado com o módulo de controle do Hailuo Image ou do mecanismo 3D Hun Yuan, construindo um ecossistema de criação multimodal.
Perspectivas futuras: A evolução contínua da arte de IA de código aberto
O lançamento do Flex.2-preview demonstra a capacidade de inovação da Ostris na área de geração de imagens de IA de código aberto. O AIbase acredita que sua trajetória de evolução do Flux.1Schnell para o Flex.2 demonstra o potencial do desenvolvimento impulsionado pela comunidade, especialmente sua capacidade de integração no ecossistema ComfyUI, oferecendo infinitas possibilidades para os desenvolvedores. Com a iteração contínua do AI-Toolkit, o Flex.2 pode se tornar um modelo padrão para ajuste fino e geração personalizada. A comunidade já está discutindo sua combinação com o protocolo MCP, construindo um fluxo de trabalho unificado de arte de IA, semelhante à plataforma online RunComfy. O AIbase espera o lançamento da versão oficial do Flex.2 em 2025, especialmente em relação aos avanços no suporte a várias resoluções e geração em tempo real.
Endereço do projeto: https://huggingface.co/ostris/Flex.2-preview