中国のAIビデオ生成分野をリードするViduは、近日、そのQ1モデルに大幅なアップグレードを実施し、新機能「リファレンストゥビデオ(参考画像からビデオ作成)」をリリースしました。この機能により、ユーザーは最大7枚のリファレンス画像をアップロードし、視覚的に一貫性が高く、1080pの動画を生成できます。この機能は、従来のAIビデオ生成において多シーンや多主体における一貫性の問題を突破し、クリエイターにこれまでにない柔軟性と創作の自由を提供します。

image.png

リファレンストゥビデオ:7枚の画像で複雑な物語を解放

Vidu Q1の「リファレンストゥビデオ」機能は今回のアップデートの中心的な特徴です。ユーザーは最大7枚のリファレンス画像をアップロードでき、人物、シーン、小物などの要素を含むものとして、テキストのヒントをもとに高品質なビデオを生成できます。Vidu Q1は高度な意味融合技術を使用し、複数の画像内の要素がビデオ内で高い一貫性を保つようにし、従来のAIビデオ生成でよく見られるシーンの断絶やキャラクターの変形の問題を回避しています。

例えば、人物の写真、森の背景、動物の画像をアップロードし、「女性が森の中でギターを弾いており、コウモリが枝に止まっている」というヒントを入力すると、Vidu Q1はギターの演奏動作、森の環境、コウモリの動きを含んだビデオをスマートに生成します。画面の細部である服の模様、背景の光と影、動物の動きなどが非常にリアルです。この機能はアニメーション、ショートビデオ、広告のクリエイターにとって強力なツールとなり、複雑なシーンの制作のハードルを大きく下げます。

多主体の一貫性:連続した視覚体験の構築

Vidu Q1の「マルチエンティティコンシステンシー(多主体一貫性)」技術は、その核心的な競争力の一つです。ユーザーは異なるタイプのリファレンス画像(キャラクター、オブジェクト、環境など)をアップロードすることで、複数の主体が相互作用するビデオを生成できます。そして、ビデオ全体を通して各主体の特徴が安定して保たれます。例えば、キャラクターの写真、柄のある服、自転車の画像をアップロードすると、Vidu Q1は指定された服を着て自転車に乗るキャラクターのスムーズなビデオを生成できます。細部である柄や自転車の形状はリファレンス画像と高い一致を保っています。