2025年6月26日、ビーティー(ByteDance)は最新の画像合成技術であるXVerseを正式にリリースしました。この技術は、高精度なマルチ主体画像生成ソリューションを提供することを目的としています。この革新的な技術により、ユーザーは複数の個体を独立して正確に制御できるようになり、パーソナライズや複雑なシナリオ生成の能力が大幅に向上しました。

XVerseのコアは、独自のDiTモジュレーションメソッドです。これは、全体の画像の潜在的な特徴に影響を与えることなく、各主体のアイデンティティとセマンティック属性を調整できます。参照画像を特定のトークンごとのテキストストリームのオフセットに変換することで、XVerseは画像合成をより柔軟かつ直感的にし、ユーザーは簡単なテキスト記述だけで、期待通りの高精細な画像を生成できます。

QQ20250701-102724.png

技術実装においては、XVerseはユーザーがまずPython3.10.16を含むconda環境を作成し、必要な依存関係をインストールする必要があります。その後、ユーザーは関連するチェックポイントおよび顔認識モデルをダウンロードし、技術のスムーズな動作を保証する必要があります。注目すべき点は、XVerseがインタラクティブなGradioデモを提供しており、ユーザーは画像をアップロードし、説明文を入力することで、リアルタイムで画像を生成でき、複数のパラメータを調整して生成効果を最適化できるということです。

XVerseのユーザーインターフェースは使いやすく、画像の説明、生成される画像の高さと幅など、豊富な入力設定オプションを提供しています。ユーザーは生成される画像の特徴を柔軟に調整できます。さらに、「検出と分割」機能を使用して、アップロードされた画像を分析し、自動的に顔をトリミングして関連する説明文を生成することで、生成の正確性とパーソナライズ性を向上させます。

結論として、XVerseは画像合成の広範な可能性を示す革新的な技術であり、今後デジタルコンテンツ制作、広告、アートなどの多岐にわたる分野に深い影響を与えることが予想されます。今後のバージョンのリリースとともに、XVerseは業界標準となることが期待され、多くの創造的なプロジェクトの実現を支援するものとなります。

アドレス: https://github.com/bytedance/XVerse