Stable Diffusion 3(略してSD3)は、20億個のパラメータを持つ強力なテキストから画像を生成するモデルです。その高速な推論速度と優れた生成結果から注目を集めています。6月12日夜、著名なオープンソース大規模言語モデルプラットフォームStability AIは、SD3-Mのウェイトを正式にオープンソース化し、多くのユーザーに無料トライアルの機会を提供しました。(体験動画は記事の上部に掲載しています!)
SD3-Mアクセス:https://top.aibase.com/tool/stable-diffusion-3-medium
SD3-Mは画像生成にかかる平均時間が非常に短く、わずか2~10秒程度です。また、ハードウェアの要求も比較的低いため、PC、スマートフォン、タブレットなど様々なデバイスで使用できます。さらに、SD3-MはNVIDIA、AMDと協力して特定のハードウェア向けに最適化されており、RTX GPU、TensorRT、最新のCPU、MI-300X向けに最適化され、パフォーマンスは最大50%向上します。
このモデルはマルチモーダル拡散トランスフォーマー(MMDiT)アーキテクチャを採用しており、画像品質、レイアウト、複雑なテキストプロンプト/意味理解、リソース効率などにおいて大幅な改善が見られます。SD3-Mは10億枚の画像を含む公開データと合成データを使用して事前学習され、特定の芸術様式や分野に合わせて3000万枚の画像で微調整、300万枚の好みに基づいた画像を使用して微調整されており、ユーザーのテキストプロンプトの理解と画像へのテキスト埋め込みの効果が向上しています。
オンラインデモでは、SD3-Mの生成結果は非常に素晴らしいものです。高層ビルから静かなビーチの景色、熱帯雨林から1950年代のレトロなレストランまで、SD3-Mは優れた画像生成能力を示しています。無料のオンライントライアルは、ユーザーに無限の可能性を提供します。
注意が必要なのは、現時点ではSD3-Mは学術研究のみに限定されており、商業利用はできません。商業利用を希望する場合は、Stability AIに連絡して商業ライセンスを取得する必要があります。
SD3-Mのオープンソース化により、ユーザーは無料でこの強力なテキストから画像を生成するモデルを試用し、様々な分野での応用可能性を探ることができます。この取り組みが、人工知能分野の発展にさらなる可能性と機会をもたらすことを願っています。
体験版アドレス:https://huggingface.co/spaces/stabilityai/stable-diffusion-3-medium