最近、シンガポール国立大学(NUS)のチームは、「OmniConsistency」という革新的なプロジェクトを公開しました。これは、極めて低いコストで OpenAI の GPT-4o モデルによる画像スタイル化の一貫性を再現することを目指しています。この技術は、現在のオープンソースコミュニティにおけるスタイル化と一貫性の間の矛盾を解決し、多くの開発者に実行可能な解決策を提供します。

近年、画像スタイル化技術は進化を続けていますが、実際の応用ではスタイルと内容の一貫性のバランスを取ることが常に難題でした。多くのモデルは効果的なスタイル化を達成するために、細部や意味的な正確さを犠牲にしてきました。NUS の研究チームはこの問題に気づき、スタイル化効果と一貫性の完璧なバランスを目指しました。

image.png

OmniConsistency の核となる革新点はその独自の学習フレームワークにあります。従来の方法とは異なり、OmniConsistency は単にスタイル化結果に基づく訓練ではなく、ペア画像データを使用してスタイル変換の中での一貫性の法則を学習します。このプロジェクトは、高品質な画像ペア 2600組を使用し、500時間の GPU カルキュレーションで驚くべき成果を達成しました。このような低コストは開発者の負担を大幅に軽減します。

さらに、OmniConsistency はモジュール式アーキテクチャを採用しており、プラグアンドプレイに対応し、既存のスタイル化 LoRA(低ランク適応)モジュールとも互換性があります。これにより、開発者は簡単にこの技術を自身のプロジェクトに統合でき、既存システムとの競合を心配する必要がありません。

この新しい技術を通じて、NUS はオープンソースエコシステムにほぼ商業級の能力を注入し、多くの開発者やクリエイターに利便性を提供したいと考えています。将来、OmniConsistency は画像生成分野において重要なツールとなり、AI アート創作のさらなる発展を推進するでしょう。

プロジェクトのリポジトリ: https://github.com/showlab/OmniConsistency