アップルとパドゥー大学が共同でDarkDiff技術を公開し、生成型拡散モデルをカメラの画像処理プロセスに統合することで、スマートフォンが極暗な環境下でも撮影効果を著しく向上させました。この技術は元の画像データを直接処理し、従来の夜景モードのノイズ除去による細部のぼけや不自然感の問題を効果的に解決し、暗闇の中で明確な細部を捉えることが可能になりました。
アリババ技術研究院がLLaDA2.0シリーズを発表し、16Bおよび100Bバージョンを含む。そのうち100Bバージョンは、業界初の100Bパラメータの離散拡散型大規模言語モデルである。このモデルは拡散モデルのスケーラビリティの限界を突破し、生成品質と推論速度を大幅に向上させ、分野の発展に新たな方向性を提供する。
Appleが発表した動画生成モデルSTARFlow-Vは、主流の拡散モデルではなく「正規化フロー」技術を採用し、長尺動画の安定性向上に焦点を当てています。視覚品質と生成速度は拡散モデルに匹敵し、解像度640×480ピクセル、フレームレート16fpsで出力可能です。....
アップルが動画生成モデル「STARFlow-V」を発表。主流の拡散モデルに代わる正規化フロー技術を採用し、長尺動画生成の安定性向上と誤差蓄積の低減を目指す。データ分布を直接学習することで生成プロセスを簡素化し、Soraなど競合との差別化を図る。....
世界初のオープンソースMoEビデオ生成モデルで、テキスト/画像から720Pビデオへの変換をサポートします。
ソース分離と合成を行うための革新的な手法としてのオーディオ拡散モデル。
F Liteは、著作権遵守と安全な内容に焦点を当てた1兆パラメーター規模の拡散モデルです。
ブロック拡散と専門家混合技術を融合した、初の効率的な推論言語モデル
Google
$0.49
入力トークン/百万
$2.1
出力トークン/百万
1k
コンテキスト長
Openai
$2.8
$11.2
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$1
$10
256
$6
$24
Baidu
128
$2
$20
$4
$16
city96
FLUX.2-devはblack-forest-labsによって開発された画像生成および編集モデルで、GGUF形式に変換され、画像生成タスクに最適化されており、拡散モデルアーキテクチャを採用し、ComfyUIフレームワークでの使用をサポートしています。
Gjm1234
Wan2.2は基礎ビデオモデルの大幅なアップグレード版で、有効なMoEアーキテクチャ、効率的なトレーニング戦略、マルチモーダル融合などの革新的な技術をビデオ拡散モデルに取り入れ、ビデオ生成分野により強力で効率的な解決策をもたらします。
sd2-community
Stable Diffusion v2-1-baseは、テキストから画像を生成する拡散モデルで、v2-baseをベースに220kの追加ステップで微調整されています。このモデルは、テキストプロンプトに基づいて画像を生成および修正でき、複数の解像度出力をサポートし、アート創作や教育研究などのさまざまな分野に適しています。
Stable Diffusion v2は拡散モデルに基づくテキストから画像生成モデルで、テキストプロンプトに基づいて画像を生成および修正することができます。このモデルはLAION - 5Bデータセットのサブセットで訓練され、オートエンコーダと拡散モデルを組み合わせて潜在空間で訓練され、複数の解像度とタスクをサポートします。
Stable Diffusion v2-1-unclipはStable Diffusion 2.1をベースに微調整された拡散モデルで、テキストプロンプトとCLIP画像埋め込みを受け取り、画像バリエーションの作成やテキストから画像へのCLIP事前学習モデルと組み合わせて使用できます。
nvidia
BR-RMは革新的な2ラウンド推論報酬モデルで、適応的分岐と分岐に基づく反省メカニズムにより、従来の報酬モデルにおける「判断拡散」の問題を解決し、複数の報酬モデリングベンチマークテストで業界をリードする性能を達成しました。
ashllay
Stable Diffusion XLをベースに、Inversion-DPO方法でUNetの重みを微調整し、直接嗜好最適化(DPO)技術と反転方法を組み合わせて、画像生成品質とアライメント度を向上させた拡散モデル
MadhavRupala
Stable Diffusion v1-5は潜在拡散技術に基づくテキストから画像生成モデルで、テキスト記述に基づいてリアルな画像を生成できます。このモデルはLAION - 2Bデータセットで訓練され、英語テキスト入力をサポートし、512x512解像度の画像を生成します。
radicalnumerics
RND1は実験的な拡散言語モデルで、300億のパラメータを持ち、疎なエキスパート混合アーキテクチャを採用しています。このモデルは事前学習された自己回帰ベースモデルから変換され、拡散ベースのテキスト生成をサポートしており、各トークンで300億のパラメータのみがアクティブ化され、計算効率とモデル容量のバランスを取っています。
likewendy
Pandoraは、リアルで高品質な携帯写真スタイルの画像を生成するための拡散モデルで、二段階のトレーニングプロセスを採用し、驚きの効果を持つ携帯写真スタイルの画像を生成することができます。
Salesforce
CoDAはSalesforce AI Researchによって開発された拡散モデルに基づくコード生成言語モデルで、双方向コンテキスト理解能力を備え、強力なコード生成と補完タスク用に設計されています。このモデルはわずか17億のパラメータで、低い計算要件を維持しながら卓越したコード生成性能を実現しています。
inclusionAI
LLaDA-MoEは拡散原理に基づいて構築された新しい混合専門家言語モデルで、最初のオープンソースのMoE拡散大規模言語モデルです。約20兆個のトークンで最初から事前学習され、総パラメータは70億で、推論時には14億のパラメータのみがアクティブ化されます。コード生成や数学的推論などのタスクで卓越した性能を発揮します。
tencent
SRPOは拡散モデルに対する人間の嗜好アライメント手法で、Direct-Align技術と意味的相対嗜好最適化により、FLUX.1-devモデルのリアリティと美学品質を大幅に向上させ、多段階ノイズ除去の計算コストが高い問題とオフライン報酬微調整に依存する問題を解決します。
sagata007
RUSKANIME2025はLoRAとDiffusers技術に基づくテキストから画像への生成モデルで、特定のトリガーワードを通じて関連するアニメスタイルの画像を生成するために特別に設計されています。このモデルはblack-forest-labs/FLUX.1-dev基礎モデルに基づいて構築され、拡散LoRAテンプレート技術を採用しています。
John6666
これは安定拡散XLアーキテクチャに基づくテキストから画像生成モデルで、高度なリアリティと豊富な色彩を持つ写真レベルの画像を生成するために特別に設計されています。このモデルはOnomaAIResearch/Illustrious-xl-early-release-v0をベースに構築され、肌の質感と色彩表現の向上に焦点を当てています。
frankjoshua
これはQwen-Imageに基づく拡散モデルで、8ステップのLighting LoRA技術を融合し、高速で高品質な画像生成を実現できます。このモデルはGGUF量子化形式で提供され、リソースが制限された環境での実行をサポートします。
Immac
NetaYume Lumina Image 2.0はテキストから画像への拡散モデルで、GGUF形式で量子化処理されており、テキスト記述を画像に変換することができます。このモデルは最適化されており、生成品質を維持しながらメモリ使用量を削減し、パフォーマンスを向上させています。
tristan-deep
これはスコア生成拡散モデルに基づく医学画像処理モデルで、心臓超音波画像の霧除去処理に特化しています。このモデルはDehazeEcho2025データセットで訓練され、超音波画像の霧状の干渉を効果的に除去し、画像の鮮明度を向上させることができます。
duyntnet
Chromaは、高品質なテキストから画像への生成モデルで、リアルな画像コンテンツの生成に特化しています。このモデルは、先進的な拡散技術を採用しており、テキストの記述に基づいて高品質なビジュアルコンテンツを生成することができ、特にローカルデプロイ環境での画像創作ニーズに適しています。
manycore-research
SpatialGenは、多視点、マルチモーダル拡散モデルを利用して、セマンティックレイアウトから多視点、マルチモーダル情報を生成するプロジェクトです。画像からシーン、テキストからシーンへの変換を実現し、関連分野の研究と応用に有力な支援を提供します。
ComfyUI_StoryDiffusionはComfyUIベースのプラグインで、StoryDiffusionとMS - Diffusionモデルをサポートし、一貫した長いシーケンスの画像とビデオを生成するために使用されます。このプロジェクトは、二人のキャラクターの同時表示、ControlNet制御、Lora加速、テキストから画像への変換、画像から画像への変換など、さまざまな機能をサポートしています。