El equipo de Ostris ha lanzado Flex.2-preview, un modelo de difusión de texto a imagen basado en 800 millones de parámetros, diseñado específicamente para integrarse con el flujo de trabajo de ComfyUI. Según AIbase, este modelo destaca por su excelente capacidad de generación controlada basada en líneas, poses y profundidad, admite control general y funciones de reparación de imágenes, y continúa la trayectoria de evolución del ajuste fino desde Flux.1Schnell hasta OpenFlux.1 y Flex.1-alpha. Flex.2-preview ya está disponible en código abierto en Hugging Face, y gracias a su licencia Apache2.0 y su flexible integración con el flujo de trabajo, se ha convertido rápidamente en un punto focal de la comunidad de creación de arte con IA.

image.png

Funciones principales: Control general e integración perfecta con el flujo de trabajo

Flex.2-preview redefine la generación de imágenes a partir de texto gracias a su potente capacidad de control y su compatibilidad nativa con ComfyUI. AIbase ha resumido sus principales funciones:

Soporte de control general: Incorpora control de líneas (Canny), poses y profundidad, permitiendo a los usuarios guiar con precisión la generación de imágenes mediante el control, como la generación de escenas de estilo 3D basadas en mapas de profundidad o la generación de ilustraciones detalladas basadas en bocetos lineales.

Capacidad de reparación de imágenes: Admite la reparación avanzada de imágenes (inpainting), permitiendo a los usuarios especificar áreas mediante máscaras para reemplazar o reparar contenido, como reemplazar un perro por "un perro robot blanco sentado en un banco".

Integración con el flujo de trabajo de ComfyUI: El modelo está optimizado para ComfyUI, ofreciendo soporte para flujos de trabajo basados en nodos, simplificando la configuración de tareas complejas, como la combinación de texto a imagen, imagen a imagen y redes de control.

Generación eficiente: Basado en una arquitectura simplificada de 800 millones de parámetros, la generación de imágenes de alta resolución de 1024x1024 solo requiere 50 pasos de inferencia, adecuado para GPU de consumo con 16 GB de VRAM.

AIbase ha observado que, en las pruebas de la comunidad, los usuarios han utilizado los nodos de control de Flex.2-preview para generar una imagen de "paisaje urbano cyberpunk", logrando una composición altamente consistente mediante el control de la profundidad y las líneas, lo que demuestra su potencial en el diseño creativo.

ostris_Flex.2-preview 昨天发布了,这是个8B大小的文本生成图像的扩散模型。这个 (1).jpg

Arquitectura técnica: Evolución de Flux.1Schnell a Flex.2

Flex.2-preview se basa en Flux.1Schnell de Black Forest Labs, tras un ajuste fino y una optimización en varias etapas. AIbase analiza su evolución técnica:

Optimización de la arquitectura: Hereda la arquitectura del transformador de flujo rectificado (Rectified Flow Transformer) de Flux.1, con 8 bloques de doble transformador (más ligero que los 19 de Flux.1-dev), eliminando la dependencia de la guía libre del clasificador (CFG) mediante el incrustador de guía (Guidance Embedder).

Integración de control y reparación: Emplea un diseño de espacio latente de 16 canales, combinando el potencial de ruido, la imagen reparada codificada por el autocodificador variacional (VAE), la máscara y la entrada de control, para un total de 49 canales, lo que permite un flujo de trabajo de control y reparación flexible.

Soporte de código abierto y ajuste fino: A través de AI-Toolkit, se proporcionan herramientas de ajuste fino, permitiendo a los desarrolladores entrenar modelos personalizados, generando modelos de estilos o temas específicos, manteniendo la licencia Apache2.0 amigable para el comercio.

Inferencia eficiente: Admite precisión FP8 y bfloat16, reduciendo el consumo de memoria mediante la cuantificación de 8 bits de TorchAo, optimizando la velocidad de inferencia en hardware como RTX3090.

AIbase considera que el diseño ligero y la capacidad de control general de Flex.2-preview lo convierten en una opción ideal para el ecosistema de ComfyUI, siendo más flexible que Flux.1Schnell en flujos de trabajo complejos.

Escenarios de aplicación: Desde la creación artística hasta el diseño comercial

La multifuncionalidad de Flex.2-preview lo hace adecuado para diversos escenarios creativos y comerciales. AIbase resume sus principales aplicaciones:

Arte digital e ilustraciones: Los artistas pueden generar rápidamente arte conceptual o ilustraciones mediante el control de líneas y profundidad, ideal para la previsualización de videojuegos y animaciones.

Publicidad y diseño de marca: Se utiliza la función de reparación de imágenes para ajustar rápidamente el material publicitario, como reemplazar productos o fondos, manteniendo la coherencia del estilo de la marca.

Cine y creación de contenido: Permite el diseño de personajes o la generación de escenas basadas en el control de poses, acelerando el desarrollo de storyboards y efectos visuales.

Educación y prototipado: Ofrece una solución de generación de imágenes de bajo coste para la enseñanza o el prototipado de productos, permitiendo a estudiantes y startups iterar rápidamente en ideas visuales.

Los comentarios de la comunidad muestran que Flex.2-preview, al procesar indicaciones complejas (como "un mecánico steampunk en una fábrica reparando un robot"), genera imágenes con detalles y precisión de control superiores a OpenFlux.1, especialmente en la generación de manos y texto, acercándose al nivel de MidJourney. AIbase observa que su capacidad de integración con ControlNet de XLabs aumenta aún más la diversidad del flujo de trabajo.

Guía de inicio rápido: Implementación rápida e integración con ComfyUI

AIbase ha comprobado que la implementación de Flex.2-preview es muy sencilla para los usuarios de ComfyUI, requiriendo 16 GB de VRAM (se recomienda RTX3060 o superior). Los desarrolladores pueden empezar rápidamente siguiendo estos pasos:

Descargar Flex.2-preview.safetensors desde Hugging Face (huggingface.co/ostris/Flex.2-preview) y colocarlo en ComfyUI/models/diffusion_models/;

Asegurarse de que ComfyUI esté actualizado a la última versión (mediante "Update All" en ComfyUI Manager) e instalar los modelos CLIP necesarios (t5xxl_fp16.safetensors y clip_l.safetensors) y VAE (ae.safetensors);

Descargar el archivo flex2-workflow.json proporcionado oficialmente, arrastrarlo a ComfyUI para cargar el flujo de trabajo, configurar las indicaciones e imágenes de control (como mapas de profundidad o bocetos lineales);

Ejecutar la inferencia, ajustar control_strength (se recomienda 0.5) y guidance_scale (se recomienda 3.5), para generar imágenes de 1024x1024.

La comunidad recomienda utilizar el código de ejemplo de Diffusers o el nodo Flex2Conditioning de ComfyUI para optimizar los resultados de la generación. AIbase recuerda que en la primera ejecución se debe asegurar la instalación de las bibliotecas torch, diffusers y transformers, y verificar la integridad de la conexión de los nodos en el flujo de trabajo.

Comparación de rendimiento: Superando a sus predecesores y competidores

Flex.2-preview supera significativamente a sus predecesores OpenFlux.1 y Flux.1Schnell en términos de rendimiento. AIbase ha recopilado una comparación con los modelos principales:

Calidad de imagen: En la evaluación de VBench, la puntuación CLIP de Flex.2-preview (0.82) se acerca a Flux.1-dev (0.84), superando a Flux.1Schnell (0.79), especialmente en los detalles de las manos y composiciones complejas.

Precisión de control: Combinado con XLabs ControlNet, Flex.2 supera en aproximadamente un 8% la consistencia de InstantX Flux.1-dev-Controlnet-Union-alpha en tareas de control Canny y de profundidad.

Velocidad de inferencia: El tiempo medio de generación de imágenes de 1024x1024 (50 pasos) es de 20 segundos (RTX3090, FP8), aproximadamente un 15% más rápido que Flux.1-dev, ideal para iteraciones rápidas.

Uso de recursos: Sus 800 millones de parámetros y la cuantificación FP8 reducen la demanda de memoria al 60% de Flux.1-dev, siendo más adecuado para hardware de consumo.

AIbase considera que el equilibrio de rendimiento de Flex.2-preview lo convierte en un modelo único entre los modelos de código abierto, especialmente adecuado para flujos de trabajo que requieren alta precisión de control y generación rápida.

Respuestas de la comunidad y direcciones de mejora

Tras el lanzamiento de Flex.2-preview, la comunidad ha elogiado su flexible capacidad de control y su espíritu de código abierto. Los desarrolladores lo califican como "que lleva el potencial del flujo de trabajo de ComfyUI al máximo", especialmente en la creación artística y las tareas de reparación. Sin embargo, algunos usuarios han indicado que la comprensión semántica del modelo para indicaciones complejas aún necesita mejoras, sugiriendo mejorar la capacidad de procesamiento de indicaciones del codificador T5. La comunidad también espera que Flex.2 admita la generación de vídeo y una integración más amplia de ControlNet (como la estimación de poses). El equipo de Ostris ha respondido que la próxima versión optimizará el procesamiento de indicaciones multimodales e introducirá un ajuste dinámico del umbral, mejorando aún más la estabilidad de la generación. AIbase predice que Flex.2 podría combinarse con el módulo de control de Hailuo Image o el motor 3D de Hun Yuan, creando un ecosistema de creación multimodal.

Perspectivas de futuro: La evolución continua del arte de IA de código abierto

El lanzamiento de Flex.2-preview demuestra la capacidad innovadora de Ostris en el campo de la generación de imágenes de IA de código abierto. AIbase considera que su trayectoria de evolución de Flux.1Schnell a Flex.2 muestra el potencial del desarrollo impulsado por la comunidad, especialmente su capacidad de integración en el ecosistema de ComfyUI, ofreciendo infinitas posibilidades a los desarrolladores. Con la continua iteración de AI-Toolkit, Flex.2 podría convertirse en el modelo estándar para el ajuste fino y la generación personalizada. La comunidad ya está explorando su combinación con el protocolo MCP, creando un flujo de trabajo de arte de IA unificado, similar a la plataforma online RunComfy. AIbase espera el lanzamiento de la versión oficial de Flex.2 en 2025, especialmente los avances en el soporte de múltiples resoluciones y la generación en tiempo real.

Dirección del proyecto: https://huggingface.co/ostris/Flex.2-preview