Ostrisチームが、8億パラメーターのテキストツーイメージ拡散モデルであるFlex.2-previewを発表しました。これは、ComfyUIワークフローへの統合を目的として設計されています。AIbaseの調査によると、このモデルは、線、ポーズ、深さに基づいた制御による生成能力に優れており、汎用的な制御と画像修復機能をサポートしています。Flux.1SchnellからOpenFlux.1、Flex.1-alphaへと続く微調整の進化路線を引き継いでいます。Flex.2-previewはHugging Faceでオープンソース化されており、Apache2.0ライセンスと柔軟なワークフロー統合により、AIアート創作コミュニティの中心となっています。

image.png

主要機能:汎用的な制御とワークフローのシームレスな統合

Flex.2-previewは、その強力な制御能力とComfyUIネイティブサポートにより、テキストツーイメージ生成を再定義します。AIbaseがその主要機能をまとめました:

汎用的な制御サポート:線(Canny)、ポーズ、深さの制御が組み込まれており、ユーザーは画像を正確に制御して生成結果を導くことができます。例えば、深度マップに基づいて3Dスタイルのシーンを生成したり、線画に基づいて精細なイラストを生成したりできます。

画像修復機能:高度な画像修復(inpainting)をサポートしており、ユーザーはマスクを使用して領域を指定し、コンテンツの置換や修復を行うことができます。例えば、犬を「白いロボット犬がベンチに座っている」という画像に置き換えることができます。

ComfyUIワークフロー統合:このモデルはComfyUI向けに最適化されており、ノード化されたワークフローをサポートし、テキストツーイメージ、イメージツーイメージ、制御ネットワークの組み合わせなど、複雑なタスクの設定を簡素化します。

効率的な生成:8億パラメーターの簡素化されたアーキテクチャに基づいており、1024x1024の高解像度画像の生成には50ステップの推論しか必要ありません。16GB VRAMのコンシューマー向けGPUに適しています。

AIbaseは、コミュニティテストにおいて、ユーザーがFlex.2-previewの制御ノードを使用して「サイバーパンクな都市の夜景」を生成し、深度マップと線制御を使用して高い整合性の構成を実現したことに注目しています。これは、クリエイティブデザインにおける可能性を示しています。

ostris_Flex.2-preview 昨天发布了,这是个8B大小的文本生成图像的扩散模型。这个 (1).jpg

技術アーキテクチャ:Flux.1SchnellからFlex.2への進化

Flex.2-previewはBlack Forest LabsのFlux.1Schnellをベースに、複数段階の微調整と最適化が行われています。AIbaseの分析によると、その技術進化には以下が含まれます:

アーキテクチャの最適化:Flux.1の整流流変換器(Rectified Flow Transformer)アーキテクチャを継承し、8つのデュアルトランスフォーマーブロック(Flux.1-devの19個と比べて軽量)を備えています。ガイダンスエンベダー(Guidance Embedder)を使用して、分類器フリーガイダンス(CFG)への依存を排除します。

制御と修復の統合:16チャネルの潜在空間設計を採用し、ノイズ潜在、変分オートエンコーダー(VAE)でエンコードされた修復画像、マスク、制御入力(合計49チャネル)を組み合わせて、柔軟な制御と修復ワークフローをサポートします。

オープンソースと微調整のサポート:AI-Toolkitを使用して微調整ツールを提供します。開発者は、ガイダンスエンベダーをバイパスしてカスタマイズされたトレーニングを行い、特定のスタイルやテーマのモデルを生成できます。Apache2.0ライセンスの商用フレンドリー性を維持します。

効率的な推論:FP8とbfloat16精度をサポートし、TorchAoの8ビット量子化によりメモリ使用量を削減し、RTX3090などのハードウェアでの推論速度を最適化します。

AIbaseは、Flex.2-previewの軽量化設計と汎用的な制御能力により、ComfyUIエコシステムの理想的な選択肢となり、Flux.1Schnellと比較して複雑なワークフローでの柔軟性が向上すると考えています。

適用事例:アート創作から商業デザインまで

Flex.2-previewの多機能性により、さまざまなクリエイティブおよび商業的なシナリオに適用できます。AIbaseがその主な用途をまとめました:

デジタルアートとイラスト:アーティストは、線と深さの制御を使用して、概念アートやイラストを迅速に生成できます。ゲーム美術やアニメーションのプレビジュアライゼーションに適しています。

広告とブランドデザイン:画像修復機能を使用して、広告素材を迅速に調整できます。例えば、製品や背景を置き換えながら、ブランドスタイルの一貫性を維持できます。

映画とコンテンツ制作:ポーズ制御に基づいたキャラクターデザインやシーン生成をサポートし、ストーリーボードと視覚効果の開発を加速します。

教育とプロトタイプ設計:教育や製品プロトタイプに低コストの画像生成ソリューションを提供します。学生やスタートアップ企業は、視覚的なアイデアを迅速に反復できます。

コミュニティのフィードバックによると、Flex.2-previewは、「蒸気パンクの機械工が工場でロボットを修理している」などの複雑なプロンプトを処理する場合、OpenFlux.1を上回る画像の詳細と制御精度を実現し、特に手とテキストの生成においてMidJourneyレベルに近づいています。AIbaseは、XLabsのControlNetとの統合能力により、ワークフローの多様性がさらに向上していることを観察しています。

入門ガイド:迅速な展開とComfyUIとの統合

AIbaseの調査によると、Flex.2-previewの展開はComfyUIユーザーにとって非常に簡単で、ハードウェア要件は16GB VRAM(RTX3060以上推奨)です。開発者は以下の手順で迅速に開始できます:

Hugging FaceからFlex.2-preview.safetensors(huggingface.co/ostris/Flex.2-preview)をダウンロードし、ComfyUI/models/diffusion_models/に配置します。

ComfyUIを最新バージョンに更新し(ComfyUI Managerの「Update All」を使用)、必要なCLIPモデル(t5xxl_fp16.safetensorsとclip_l.safetensors)とVAE(ae.safetensors)をインストールします。

公式提供のflex2-workflow.jsonをダウンロードし、ComfyUIにドラッグアンドドロップしてワークフローを読み込み、プロンプトと制御画像(深度マップや線画など)を設定します。

推論を実行し、control_strength(0.5推奨)とguidance_scale(3.5推奨)を調整して、1024x1024の画像を生成します。

コミュニティでは、提供されているDiffusersのサンプルコードまたはComfyUIのFlex2Conditioningノードを使用して、生成結果を最適化することを推奨しています。AIbaseは、初回実行時にtorch、diffusers、transformersライブラリがインストールされていること、ワークフローのノード接続が完全であることを確認するよう促しています。

性能比較:前世代と競合製品を凌駕

Flex.2-previewは、前世代のOpenFlux.1とFlux.1Schnellよりも性能が大幅に向上しています。AIbaseが主要なモデルとの比較をまとめました:

画像品質:VBench評価において、Flex.2-previewのCLIPスコア(0.82)はFlux.1-dev(0.84)に近く、Flux.1Schnell(0.79)を上回っています。特に、手の詳細と複雑な構成において優れた性能を発揮します。

制御精度:XLabs ControlNetと組み合わせることで、Flex.2はCannyと深度制御タスクにおける一貫性が、InstantXのFlux.1-dev-Controlnet-Union-alphaよりも約8%向上しています。

推論速度:1024x1024画像の生成(50ステップ)の平均時間は20秒(RTX3090、FP8)で、Flux.1-devよりも約15%高速であり、迅速な反復に適しています。

リソース消費:8億パラメーターとFP8量子化により、メモリ要件はFlux.1-devの60%に過ぎず、コンシューマー向けハードウェアに適しています。

AIbaseは、Flex.2-previewの性能バランスにより、オープンソースモデルの中で独自の地位を確立しており、特に高い制御精度と高速な生成が必要なワークフローに適していると評価しています。

コミュニティの反応と改善の方向性

Flex.2-previewのリリース後、コミュニティはその柔軟な制御能力とオープンソース精神を高く評価しています。開発者は、それが「ComfyUIのワークフローの可能性を最大限に引き出している」と述べており、特にアート創作と修復タスクにおけるパフォーマンスは印象的です。しかし、一部のユーザーは、モデルの複雑なプロンプトに対する意味理解に改善の余地があると指摘し、T5エンコーダーのプロンプト処理能力の強化を提案しています。コミュニティはまた、Flex.2がビデオ生成とより広範なControlNet統合(ポーズ推定など)をサポートすることを期待しています。Ostrisチームは、次のバージョンではマルチモーダルプロンプト処理を最適化し、動的閾値調整を導入して、生成の安定性をさらに向上させると回答しています。AIbaseは、Flex.2がHailuo Imageまたは混元3Dエンジンなどの制御モジュールと連携して、クロスモーダルの創作エコシステムを構築する可能性があると予測しています。

将来展望:オープンソースAIアートの継続的な進化

Flex.2-previewのリリースは、OstrisがオープンソースAI画像生成分野における革新的な能力を示しています。AIbaseは、Flux.1SchnellからFlex.2への進化パスが、コミュニティ主導の開発の可能性を示しており、特にComfyUIエコシステムにおける統合能力が開発者に無限の可能性を提供すると考えています。AI-Toolkitの継続的な反復により、Flex.2は微調整とカスタマイズされた生成の標準モデルになる可能性があります。コミュニティは、MCPプロトコルとの統合を検討し、RunComfyのようなオンラインプラットフォームに似た統一されたAIアートワークフローを構築しています。AIbaseは、2025年の正式版リリース、特にマルチ解像度サポートとリアルタイム生成におけるブレークスルーに期待しています。

プロジェクトアドレス:https://huggingface.co/ostris/Flex.2-preview