IDEA-CCNL
Taiyi-Diffusion-XLは、中国語のテキストから画像生成能力を強化しながら、英語の理解能力も保持するバイリンガル拡散モデルです。Stable-Diffusion-XLアーキテクチャに基づき、高品質のバイリンガルデータセットで訓練され、画像品質、多様性、テキストアライメントの面で優れた性能を発揮し、AIGCとデジタルアート創作に新たな選択肢を提供します。
画像の内容をテキスト記述に変換することに特化したモデルで、中国語処理をサポートしています。
初のオープンソース中国語Stable Diffusionアニメモデル、100万の選別されたアニメ中国語テキスト画像ペアでトレーニング
初のオープンソース中英バイリンガルStable Diffusionモデル、0.2億の選別済み中国語画像テキストペアでトレーニング
初のオープンソース中国語Stable Diffusionモデル、2,000万の精選された中国語画像テキストペアでトレーニング
初のオープンソース中国語CLIPモデル、1億2300万のテキスト画像ペアで事前学習、テキストエンコーダはRoBERTa-baseアーキテクチャを採用。
初のオープンソース中国語CLIPモデル、1.23億の画像テキストペアで事前学習、テキストエンコーダはRoBERTa-largeアーキテクチャを採用。
初のオープンソース中国語CLIPモデル、1.23億の画像テキストペアで事前学習済み、中国語の画像テキスト特徴抽出とゼロショット分類をサポート
初めてオープンソース化された中国語CLIPモデルで、1億2300万の画像テキストペアで事前学習されており、テキストエンコーダはRoBERTa-baseアーキテクチャを採用しています。
RoBERTa-baseアーキテクチャに基づく特殊事前学習英語版マルチモーダルテキストエンコーダー、100万の画像テキストペアで訓練
COCOとVisual Genomeデータセットを使用した特別な事前学習を行った英語版MAPビジュアルエンコーダー、ViT-baseアーキテクチャを採用