バイチュンがオープンソースLanceを開発しました。このモデルは、わずか3Bのアクティブパラメータを持つ、ナイーブな統一マルチモーダル大規模モデルです。理解モデル(VLM)と生成モデル(DiT/ディフュージョン)の技術的境界を打ち破りました。極めて軽量ながらもすべての機能をカバーし、現在のAI業界でパラメータを増やしたり、組み立て式にモデルを作成する風潮に挑戦しています。これは技術革新の重要な突破です。
OPPOはMediaTek Dimensity開発者会議で、世界初の端末側AIGC光影処理エンジンを発表。自社開発のDiTアーキテクチャに基づき、逆光や強い光、影の交錯など屋外の複雑な光問題を解決し、人物の顔の暗さや背景の露出過多、細部の損失を改善。写真愛好家に朗報。....
2026年3月11日、謝賽寧チームが世界初の複数人ビデオ世界モデル「Solaris」を発表。単一視点から複数人インタラクティブ世界への進化を実現し、建築の一貫性向上と仮想世界での協調知覚能力を検証。....
テンセント・ハントゥンチームがHY-Motion1.0モデルをオープンソース化しました。DiTアーキテクチャとフローマッチング技術を基盤とし、テキスト記述によって高品質な3D骨格アニメーションを生成可能です。主流の3Dツールとの互換性があり、アニメーション制作のハードルを大幅に下げます。このモデルは全段階トレーニング戦略を採用し、3000時間を超えるアクションデータを利用して生成効果を最適化しています。
バイトダンスのSeedance 1.5 Proは、DB - DiTを使用して音画同期の映画レベルのビデオを生成します。
DiTベースのヒューマンイメージアニメーションフレームワークであり、精細な制御と長期的な一貫性を実現します。
多モーダル拡散トランスフォーマーにおける注意制御を探索し、微調整不要の複数プロンプトによる長尺動画生成を実現
DiTベースのビデオ生成モデル。高画質ビデオをリアルタイムで生成します。
Alibaba
-
入力トークン/百万
出力トークン/百万
コンテキスト長
Deepseek
$4
$12
128
Chatglm
$16
32
$2
$8
Minimax
Stepfun
Baidu
diffusers
FLUX.2-devはNF4量子化のDiTとテキストエンコーダに基づく画像生成と編集モデルで、高品質な画像生成と編集能力を提供し、画像分野の開発アプリケーションに適しています。
valiantcat
Qwen-Image-Edit-MeiTuはQwen-Image-Editをベースに改良されたバージョンで、DiTアーキテクチャを微調整し、複雑な画像編集における視覚的な一貫性、美学的品質、構造の整列能力の向上に特化しています。
Lightricks
DiTアーキテクチャに基づく初のリアルタイム高品質動画生成モデル、1216×704解像度30FPS生成をサポート
DiTアーキテクチャを基にした初のリアルタイム高品質動画生成モデル。1216×704解像度の動画を30fpsで生成可能
DiTy
このモデルはgoogle/gemma-2-9b-itをベースに関数呼び出しタスク向けにファインチューニングされたバージョンで、トレーニングデータはすべて手動でアノテーションされ、ロシア語版のDiTy/function-callingデータセットが使用されています。
kaupane
Wikiartデータセットでトレーニングされた拡散トランスフォーマーモデル、アート作品画像の生成に使用
Wikiartデータセットでトレーニングされた拡散トランスフォーマーモデル、アートスタイル画像生成用
DiTアーキテクチャに基づくリアルタイム高品質動画生成モデルで、テキストから動画および画像から動画への2つの応用シナリオをサポート
DiTベース初の動画生成モデルで、高品質な動画をリアルタイム生成可能。テキストから動画、または画像+テキストから動画の2つのシナリオに対応
ByteDance
InfiniteYou(InfU)はFLUX拡散トランスフォーマー(DiT)ベースのアイデンティティ保持画像生成フレームワークで、ID特徴を保持しながら柔軟な画像リモデリングを実現します。
jobs-git
DiTアーキテクチャに基づく初のリアルタイム高品質動画生成モデルで、テキストから動画および画像から動画の生成をサポート
DiTベースの初の動画生成モデルで、高品質な動画をリアルタイムに生成可能。テキストから動画、画像+テキストから動画の2つのシナリオに対応。
conjuncts
このモデルはtransformersライブラリをベースとしたモデルで、具体的な機能や用途はさらなる情報確認が必要です。
THUDM
CogView3-Plus-3BはCogView3のDiTバージョンで、512から2048ピクセルのテキストから画像生成機能をサポートしています。
3DTopia
3DTopia-XLは、拡散変換器(DiT)とPrimX表現に基づく高品質な3Dアセット生成モデルで、テキストまたは画像入力から迅速に3D PBRアセットを生成できます。
cmarkea
microsoft/dit-baseをファインチューニングしたドキュメント画像レイアウト検出モデル、11種類のドキュメント要素を識別可能
DeepPavlov/rubert-base-cased事前学習モデルを基に、MS-MARCOロシア語段落並べ替えデータセットでファインチューニングされたsentence-transformersモデルで、ロシア語情報検索タスクに使用されます。
DeepPavlov/rubert-base-cased事前学習モデルを基に、MS-MARCOロシア語パッセージランキングデータセットで微調整されたsentence-transformersモデルで、ロシア語の非対称意味検索に使用されます。
jzju
DITアーキテクチャに基づく文書画像分割モデルで、文書内の異なる要素タイプを識別・分割するために特別に設計されています。
DiTo97
SegFormer-B3アーキテクチャをファインチューニングした文書画像二値化モデルで、DIBCO評価指標で優れた性能を発揮