中山大学などの研究チームが、ScaleLong拡散モデルを提案しました。これは、UNetのロングスキップ接続にスケーリング操作を行うことで、モデルの訓練を安定化させるものです。
彼らは、1/√2スケーリング操作が訓練を加速させる原理を解明し、LS法とCS法を用いて、モデル訓練における不安定性を効果的に軽減しました。
これらのシンプルで効果的な手法は、拡散モデルの安定性に重要な意味を持ちます。
中山大学などの研究チームが、ScaleLong拡散モデルを提案しました。これは、UNetのロングスキップ接続にスケーリング操作を行うことで、モデルの訓練を安定化させるものです。
彼らは、1/√2スケーリング操作が訓練を加速させる原理を解明し、LS法とCS法を用いて、モデル訓練における不安定性を効果的に軽減しました。
これらのシンプルで効果的な手法は、拡散モデルの安定性に重要な意味を持ちます。
【AIデイリー】へようこそ!ここは、毎日人工知能の世界を探求するためのガイドです。毎日、開発者に焦点を当て、技術トレンドを洞察し、革新的なAI製品アプリケーションを理解するのに役立つ、AI分野のホットなコンテンツをお届けします。
拡散モデルを用いたテクスチャ3D誘導による動画試着を実現する革新技術「3DV-TON(Textured3D-Guided Consistent Video Try-on via Diffusion Models)」が正式に発表されました。AIbaseの情報によると、3DV-TONは高度な3D幾何学とテクスチャモデリングを動画拡散モデルと組み合わせることで、動画における衣服の一貫性と現実感を確保し、eコマース、ファッション、仮想現実分野に新たな可能性をもたらします。
Ostrisチームは、ComfyUIワークフローへの統合を目的とした、8億パラメーターのテキストツーイメージ拡散モデルであるFlex.2-previewを発表しました。AIbaseによると、このモデルは、線、ポーズ、深さに関する制御された生成能力に優れており、汎用的な制御と画像修復機能をサポートしています。Flux.1SchnellからOpenFlux.1、Flex.1-alphaまでの微調整進化の道を継承しています。Flex.2-previewはHu…
2025年4月21日、Sand AIはオープンソースのビデオ生成モデルMAGI-1を発表しました。革新的な自己回帰拡散アーキテクチャと卓越した性能により、生成AI分野の注目を集めています。このモデルはApache 2.0ライセンスで提供され、コード、ウェイト、推論ツールはGitHubとHugging Faceで公開されており、世界中の開発者に強力な創作ツールを提供します。MAGI-1は拡散トランスフォーマーアーキテクチャに基づいており、ブロック因果関係注意機構と並列注意機構を導入しています。
人工知能分野に新たな輝く星が加わりました!このほど、ファーウェイ諾亞方舟研究所と香港大学自然言語処理グループ(HKU NLP Group)は、Dream7Bと呼ばれる新しい言語モデルを共同で発表しました。このモデルは、これまでで最も強力なオープンソース拡散大規模言語モデルと称賛されています。Dream7Bの登場は、既存の拡散言語モデルを性能面で凌駕するだけでなく、汎用能力、数学、コード、計画能力においても、同規模の最先端の自己回帰(AR)言語モデルに匹敵、あるいはそれを上回っています。
コードの力と芸術的インスピレーションが出会う時、次世代の人工知能は創造の世界の境界を静かに変えつつあります。最近、国産オープンソース画像生成モデルHiDream-I1が衝撃的な発表をしました。17億パラメーターという技術的基盤を誇るこのAIペインターは、HiDream-aiチームが力を注いで開発したもので、急速にテクノロジー界の寵児となっています。この拡散モデル技術に基づいたオープンソース画像生成ツールは、テキストの説明を高品質な画像に変換でき、ディテール描写と画像の一貫性において注目すべき能力を示しています。初期テストの結果、Hi
人工知能による絵画の分野では、拡散モデル(Diffusion Model)がU-NetアーキテクチャベースからTransformerアーキテクチャ(DiT)ベースへと移行しつつあります。しかし、DiTエコシステムは、プラグインサポート、効率性、多条件制御などの点で課題に直面しています。最近、Xiaojiu-z氏率いるチームがEasyControlという革新的なフレームワークを発表しました。これは、DiTモデルに効率的で柔軟な条件制御能力を提供することを目的としており、まるでDiTモデルに強力なCを装備したようなものです。
人工知能によるビデオ生成分野において、拡散モデルはその卓越した性能から注目を集めています。しかし、固有の反復的ノイズ除去特性により、生成プロセスは時間と計算コストがかかり、広く普及する上での大きな障壁となっていました。最近、北京航空大学、香港大学、上海人工知能研究所の研究チームは、AccVideoという革新的な技術を発表しました。この手法は、新規で効率的な蒸留方法と合成データセットを組み合わせることで、ビデオ拡散モデルの生成速度を驚異的な8.5倍に向上させることに成功しました。
先日、開発者scraedがGitHub上でLanPaintを公開しました。これは、追加のトレーニングなしで画像修復を行うツールです。このツールは、ユーザーが独自のモデルを含むあらゆる安定拡散モデル(SD)で高品質の画像修復を実現することを目的としています。LanPaintは、ノイズ除去の前にモデルに「思考」させることで、よりシームレスで正確な修復結果を得ます。LanPaintの主な特徴の一つは、ゼロトレーニング修復です。ユーザーはすぐに…