清明上河図へのタイムトリップ！DragNUWAが驚きの登場：ドラッグ＆ドロップで静止画が瞬時に動画に変換

新智元

公開日AIニュース · 1 分で読めます · Sep 6, 2023

DragNUWA: 静止画を動画に変換するマイクロソフトのモデル

マイクロソフトが開発した動画生成モデルDragNUWAは、静止画に動きを与えることができます。ドラッグ操作で動きの軌跡を指定するだけで、滑らかな動画を生成します。

カメラや複数のオブジェクトの移動、複雑な軌跡も同時に制御でき、現実世界の風景や芸術的な絵画風の動画を作成可能です。DragNUWAは、テキスト、画像、軌跡情報を導入することで、意味、空間、時間といった観点から動画の内容を精密に制御します。

研究者らは、カメラの移動と複雑な軌跡の2つの側面からモデルをテストし、複雑な動きを正確にモデル化し制御できる能力を実証しました。

モデルのトレーニングプロセス概要には、軌跡サンプラー、マルチスケール融合、適応型トレーニングが含まれています。DragNUWAは、WebVidとVideoHDのデータセットを使用してトレーニングされました。

このモデルは、動画制作やアニメーション制作など、幅広い分野への応用が期待されます。

動画生成画像処理軌跡制御

この記事はAIbaseデイリーからのものです

【AIデイリー】へようこそ！ここは、毎日人工知能の世界を探求するためのガイドです。毎日、開発者に焦点を当て、技術トレンドを洞察し、革新的なAI製品アプリケーションを理解するのに役立つ、AI分野のホットなコンテンツをお届けします。

—— AIbase デイリーグループによって作成

香港と英国の研究チームが革新的な画像トークン化手法を提案階層構造により再構成品質を向上

香港と英国の研究者チームが最近、画像をよりコンパクトで正確なデジタル表現（トークン）に変換するための新しい画像トークン化手法を提案しました。従来の手法では情報がすべてのトークンに均等に分散されるのに対し、この手法は階層構造を採用し、層ごとに視覚情報を捉えることで、画像の再構成品質と効率性を向上させています。従来の画像トークン化技術は通常、画像の各部分を複数のトークンに均等に分割しますが、この新しい手法は階層構造を採用しています。最初のトークンは、大まかな形状と構造要素を符号化します。

Apr 24, 2025

動画制作の常識を覆す！アリババのVACEモデル、テキスト・画像・動画入力を統合処理

アリババグループの科学者チームが、幅広い動画生成と編集タスクを統一的に処理することを目的とした汎用AIモデル、VACEを発表しました。VACEの中核は、強化された拡散Transformerアーキテクチャであり、その革新的な点は「ビデオ条件ユニット（VCU）」という新しい入力形式です。VCUは、テキストプロンプト、参照画像や動画シーケンス、空間マスクなど、多様なモダリティの入力を統一的な表現に凝縮し、専用のメカニズムによって異なる入力間の調整を行い、競合を回避します。概念の分離により、きめ細やかな制御を実現します。

Apr 23, 2025

Character.AIがAvatarFXモデルを発表：静止画の人物を話させる

Apr 23, 2025

2025年AI動画生成企業トップ20ランキング発表：可灵AI、即夢AI、PixVerseAIがトップ3を独占

先日、DBC、CIW、CISが共同で発表した「2025年AI動画生成企業トップ20」ランキングが正式に発表されました。快手傘下の可灵AI、愛詩科技PixVerseAI、そして抖音の即夢AIがトップ3を占めました。その他、アリババ（通義万相、絵蛙AIビデオ）、テンセント（智影）、科大訊飛（訊飛絵鏡）、MiniMax（海螺AI）など、多くの企業がランクインしています。

Apr 22, 2025

AIデイリーニュース：アリババの通義万相による動画生成モデル、豆包によるSeedインテリジェントエージェントモデルUI-TARS-1.5のオープンソース化、OpenAIによるインテリジェントエージェント実践ガイドの初公開

Apr 18, 2025

230

Moonvalley、4300万ドルのシリーズB資金調達完了、革新的なビデオ生成モデル「Marey」を発表

Apr 18, 2025

170

アリババがWan2.1-FLF2V-14Bをオープンソース化、720p高画質ビデオの始点終点フレーム生成で新境地を開拓

Apr 18, 2025

280

Google Veo 2がAI Studioに登場！無料トライアルでAI動画制作の新時代へ

人工知能による動画生成技術は、コンテンツ制作の様相をかつてないスピードで変えつつあります。AIbaseがソーシャルメディアから入手した情報によると、Google Veo 2がGoogle AI Studioに正式に登場し、ユーザー向けに無料トライアルが開始されました。このニュースは、開発者やクリエイターから大きな注目を集めており、Veo 2の普及における重要な一歩となるだけでなく、AI動画生成のための低コストなテスト環境を提供することになります。以下は、AIbaseによるこの動向に関する詳細なレポートです。Veo 2の無料トライアルの仕組みについて解説します。

Apr 16, 2025

140

無料で楽しめる！Veo2がGoogle AI Studioに登場、8秒間の超リアルな動画生成が可能に

Apr 16, 2025

アリババ通義实验室、新型デジタルヒューマン生成モデルを発表音声・動画合成がよりリアルに！

アリババ通義实验室は最近、OmniTalkerという新型のデジタルヒューマン動画生成大規模モデルを発表しました。この革新的なモデルの中核は、参照動画をアップロードすることで、動画内の人物の表情、音声、話し方を正確に模倣できる点にあります。従来のデジタルヒューマン制作プロセスと比べて、OmniTalkerは制作コストを大幅に削減し、同時に生成コンテンツのリアル感とインタラクティブ体験を向上させ、幅広い用途のニーズを満たします。OmniTalkerは非常に使いやすく、ユーザーは…

Apr 15, 2025

160

AIニュース

AIデイリー

AIタイムライン

Alハードウェアです

最新事例

画像コレクション

ビデオコレクション

オーディオコレクション

コンテンツコレクション

最新チュートリアル

AIプロダクトランキング

AIトラフィック成長ランキング

AIトラフィック減少ランキング

AI週間ランキング

アメリカ合衆国

中国

インド

ブラジル

画像生成

パーソナルアシスタント

キャラクター生成

ビデオ生成

AIプロジェクトランキング

AIプロジェクト成長ランキング

AI開発者ランキング

AI組織ランキング

Deepseek

TTS

LLM

ChatGPT

概要

清明上河図へのタイムトリップ！DragNUWAが驚きの登場：ドラッグ＆ドロップで静止画が瞬時に動画に変換

新智元

この記事はAIbaseデイリーからのものです

関連AIニュースの推奨

香港と英国の研究チームが革新的な画像トークン化手法を提案 階層構造により再構成品質を向上

動画制作の常識を覆す！アリババのVACEモデル、テキスト・画像・動画入力を統合処理

Character.AIがAvatarFXモデルを発表：静止画の人物を話させる

2025年AI動画生成企業トップ20ランキング発表：可灵AI、即夢AI、PixVerseAIがトップ3を独占

AIデイリーニュース：アリババの通義万相による動画生成モデル、豆包によるSeedインテリジェントエージェントモデルUI-TARS-1.5のオープンソース化、OpenAIによるインテリジェントエージェント実践ガイドの初公開

Moonvalley、4300万ドルのシリーズB資金調達完了、革新的なビデオ生成モデル「Marey」を発表

アリババがWan2.1-FLF2V-14Bをオープンソース化、720p高画質ビデオの始点終点フレーム生成で新境地を開拓

Google Veo 2がAI Studioに登場！無料トライアルでAI動画制作の新時代へ

無料で楽しめる！Veo2がGoogle AI Studioに登場、8秒間の超リアルな動画生成が可能に

アリババ通義实验室、新型デジタルヒューマン生成モデルを発表 音声・動画合成がよりリアルに！

香港と英国の研究チームが革新的な画像トークン化手法を提案階層構造により再構成品質を向上

アリババ通義实验室、新型デジタルヒューマン生成モデルを発表音声・動画合成がよりリアルに！