最近、研究チームの新しい成果であるCoMPaSS-FLUX.1モデルが注目を集めています。これは、FLUX.1テキストから画像への拡散モデルを基盤としたLoRAアダプターであり、生成される画像における物体の空間関係の理解能力を大幅に向上させることが目的です。このモデルは、特定の空間関係を持つ物体の処理において顕著な進展を遂げており、画像生成分野に新たな可能性をもたらしています。
CoMPaSS-FLUX.1のベースモデルはFLUX.1-devであり、LoRAレベルは16で、ファイルサイズは約50MB、Diffusersフレームワークを使用しています。主な用途は、正確な空間関係を持つ画像を生成することであり、特定の空間配置が必要な構図を作成できるほか、他の機能を維持しながら空間理解能力を強化します。
性能面では、CoMPaSS-FLUX.1の重要な改善点が注目されています。VISORベンチマークによると、このモデルの相対的な改善率は98%に達しています。T2I-CompBench空間テストでは67%の改善、GenEval位置評価では131%の相対的な改善が確認されています。また、CoMPaSS-FLUX.1は画像の忠実度においても優れた結果を示しており、FIDおよびCMMDスコアがベースモデルよりも低く、生成品質の向上が示されています。
このモデルを使用する際には、効果的なプロンプトを参考にすることができます。モデルは空間関係を記述する際に特に良い結果を出します。特に、「左」「右」「上」「下」などの明確な空間関係の記述が含まれている場合、または2つの異なる物体の明確な空間関係の記述(例:「写真中のAはBの右側にある」)が含まれている場合に最も効果的です。
トレーニング過程では、CoMPaSS-FLUX.1はSCOP(空間制約指向ペア)データエンジンからのデータを使用しました。このデータセットには約28,000個の丁寧に選ばれた物体対が含まれており、視覚的重要性、意味の違い、空間の明確さ、物体間の関係性、視覚的なバランスなどについて厳格な基準が設けられています。
トレーニングプロセスは24,000ステップに及んでおり、バッチサイズは4、学習率は1e-4、オプティマイザとしてAdamWが使用され、重み減衰は1e-2に設定されました。
huggingface:https://huggingface.co/blurgy/CoMPaSS-FLUX.1
ポイント:
🌟 CoMPaSS-FLUX.1モデルは、テキストから画像生成を行う際の空間理解能力を大幅に向上させ、特に物体同士の関係処理に特化しています。
📊 パフォーマンス評価では、いくつかのベンチマークで顕著な向上が確認されており、高品質な生成結果を保持しています。
📚 モデルのトレーニングには厳密に選別されたデータセットが使用され、生成される画像が視覚的に適切な空間関係と明確さを持つことを保証しています。