Google Researchは最近、ReCaptureという新しい技術を発表しました。この技術を使えば、自分の動画を全く新しい視点から体験することができます。ReCaptureは、ユーザーが提供した動画から、独自のカメラ軌跡を持つ新しいバージョンの動画を生成します。つまり、元の動画にはなかった視点から動画を見ることができ、人物や背景の動きはそのまま維持されます。

ReCaptureはまるで魔法の編集者のようなもので、提供された動画から全く新しい視点の動画を生成します。例えば、犬が遊んでいる動画をスマホで撮影した場合、ReCaptureは犬の視点から撮影した動画を生成することができます。驚くべきではありませんか?

では、ReCaptureはどのようにこの「魔法」を実現しているのでしょうか?実は、その原理は複雑ではありません。まず、多視点拡散モデルまたは点群レンダリング技術を利用して、ユーザーが希望する新しい視点に基づいて、動画の粗稿を生成します。この粗稿は、未研磨の原石のようなもので、映像が不完全で、時間が不連続で、酔っ払っているかのように揺れ動くかもしれません。

QQ20241108-113341.jpg

次に、ReCaptureは秘密兵器である「マスクビデオ微調整」技術を使って、この粗稿を「精密に加工」します。この技術は、熟練の職人のようなもので、空間LoRAと時間LoRAという2つの特別なツールを使って、動画を修復し最適化します。空間LoRAは「美容師」のようなもので、元の動画の人物や背景情報を学習し、映像をより鮮明で美しくします。一方、時間LoRAは「リズムマスター」のようなもので、新しい視点でのシーンの動きを学習し、動画の再生をよりスムーズで自然なものにします。

QQ20241108-113351.jpg

この2人の「マスター」によって作り上げられた粗稿は、鮮明で、連続性があり、ダイナミックな新しい動画へと変身します。さらに、動画の効果をより完璧にするために、ReCaptureはSDEdit技術を使って最終的な調整を行い、まるでメイクアップのように、動画をより繊細で美しく仕上げます。

Googleの研究者によると、ReCaptureは大量のトレーニングデータがなくても、様々なタイプの動画や視点変換に対応できるということです。つまり、普通の動画愛好家でも、ReCaptureを使って簡単にプロレベルの「マルチカメラ」動画を作成することができます。

プロジェクトアドレス:https://generative-video-camera-controls.github.io/