アリババがZ-Image画像生成モデルをオープンソース化しました。わずか6Bパラメータで効率的な生成と編集が可能で、視覚的品質は20Bレベルの商業モデルに近いです。このモデルは単一ストリームのDiTアーキテクチャを使用しており、生成速度が速く、リソース消費が少ないため、AI画像ツールの一般消費者向けアプリケーションの普及が期待されます。
騰訊元宝が新機能をリリースし、ユーザーは一文または一枚の画像だけで高解像度のビデオを生成できます。HunyuanVideo1.5オープンソースモデルを基盤とし、DiTアーキテクチャを採用し、パラメータ数8.3億個で、5〜10秒間のビデオ生成をサポートし、コンテンツ制作プロセスを簡素化します。
腾讯は軽量動画生成モデルHunyuanVideo1.5を発表。DiTアーキテクチャ採用、8.3Bパラメータで5-10秒の高画質動画を生成可能。プラットフォーム「元宝」で公開され、テキスト入力や画像+テキストからの動画生成機能を提供。....
美团が動画生成モデルLongCat-Videoを発表。DiTアーキテクチャを基に物理法則を模倣し、テキストからの動画生成を実現。世界モデル研究の発展を推進。....
DiTベースのヒューマンイメージアニメーションフレームワークであり、精細な制御と長期的な一貫性を実現します。
多モーダル拡散トランスフォーマーにおける注意制御を探索し、微調整不要の複数プロンプトによる長尺動画生成を実現
DiTベースのビデオ生成モデル。高画質ビデオをリアルタイムで生成します。
DITモデルの自己注意機構に基づく単一概念転移に関する研究
Alibaba
-
入力トークン/百万
出力トークン/百万
コンテキスト長
Deepseek
$4
$12
128
Chatglm
$16
32
$2
$8
Minimax
Stepfun
Baidu
diffusers
FLUX.2-devはNF4量子化のDiTとテキストエンコーダに基づく画像生成と編集モデルで、高品質な画像生成と編集能力を提供し、画像分野の開発アプリケーションに適しています。
valiantcat
Qwen-Image-Edit-MeiTuはQwen-Image-Editをベースに改良されたバージョンで、DiTアーキテクチャを微調整し、複雑な画像編集における視覚的な一貫性、美学的品質、構造の整列能力の向上に特化しています。
Lightricks
DiTアーキテクチャに基づく初のリアルタイム高品質動画生成モデル、1216×704解像度30FPS生成をサポート
DiTアーキテクチャを基にした初のリアルタイム高品質動画生成モデル。1216×704解像度の動画を30fpsで生成可能
DiTy
このモデルはgoogle/gemma-2-9b-itをベースに関数呼び出しタスク向けにファインチューニングされたバージョンで、トレーニングデータはすべて手動でアノテーションされ、ロシア語版のDiTy/function-callingデータセットが使用されています。
kaupane
Wikiartデータセットでトレーニングされた拡散トランスフォーマーモデル、アート作品画像の生成に使用
Wikiartデータセットでトレーニングされた拡散トランスフォーマーモデル、アートスタイル画像生成用
DiTアーキテクチャに基づくリアルタイム高品質動画生成モデルで、テキストから動画および画像から動画への2つの応用シナリオをサポート
DiTベース初の動画生成モデルで、高品質な動画をリアルタイム生成可能。テキストから動画、または画像+テキストから動画の2つのシナリオに対応
ByteDance
InfiniteYou(InfU)はFLUX拡散トランスフォーマー(DiT)ベースのアイデンティティ保持画像生成フレームワークで、ID特徴を保持しながら柔軟な画像リモデリングを実現します。
jobs-git
DiTアーキテクチャに基づく初のリアルタイム高品質動画生成モデルで、テキストから動画および画像から動画の生成をサポート
DiTベースの初の動画生成モデルで、高品質な動画をリアルタイムに生成可能。テキストから動画、画像+テキストから動画の2つのシナリオに対応。
conjuncts
このモデルはtransformersライブラリをベースとしたモデルで、具体的な機能や用途はさらなる情報確認が必要です。
THUDM
CogView3-Plus-3BはCogView3のDiTバージョンで、512から2048ピクセルのテキストから画像生成機能をサポートしています。
3DTopia
3DTopia-XLは、拡散変換器(DiT)とPrimX表現に基づく高品質な3Dアセット生成モデルで、テキストまたは画像入力から迅速に3D PBRアセットを生成できます。
cmarkea
microsoft/dit-baseをファインチューニングしたドキュメント画像レイアウト検出モデル、11種類のドキュメント要素を識別可能
DeepPavlov/rubert-base-cased事前学習モデルを基に、MS-MARCOロシア語段落並べ替えデータセットでファインチューニングされたsentence-transformersモデルで、ロシア語情報検索タスクに使用されます。
DeepPavlov/rubert-base-cased事前学習モデルを基に、MS-MARCOロシア語パッセージランキングデータセットで微調整されたsentence-transformersモデルで、ロシア語の非対称意味検索に使用されます。
jzju
DITアーキテクチャに基づく文書画像分割モデルで、文書内の異なる要素タイプを識別・分割するために特別に設計されています。
DiTo97
SegFormer-B3アーキテクチャをファインチューニングした文書画像二値化モデルで、DIBCO評価指標で優れた性能を発揮