Googleは最近、最新のビデオ生成モデル「Veo3」を発表しました。これはAIビデオ技術における大きな飛躍を示しています。「Veo3」は音声と映像を同期して生成する機能を実現し、ユーザーのプロンプトに基づいて、対話や口パクの同期、環境音響などを含む高品質なビデオを自動生成できます。この革新により、AIによるビデオ制作はマルチモーダルな境界を超え、動くだけでなく話すビデオが可能になりました。

「Veo3」の核となる技術は「V2A(Video-to-Audio)アルゴリズム」です。この技術はビデオの視覚情報をセマンティックシグナルに変換し、テキストプロンプトと組み合わせてオーディオトラックを生成します。「YouTube」などのプラットフォームで蓄積された豊富なデータ資源を活用することで、「Veo3」は驚異的な音声と映像の合成能力を発揮しています。現在、このツールはアメリカのハイエンドサブスクリプションユーザー向けに限定提供されていますが、その登場はビデオ制作業界に新たな可能性をもたらしました。

スキー、エクストリームスポーツ

画像出典:AI生成、画像ライセンスサービスMidjourney

「Veo3」の強力な機能は多岐にわたります。まず、口パクの同期対話やリアルな効果音を自動生成できます。例えば、ユーザーが簡単なプロンプトを入力するだけで、「Veo3」は人物の対話、環境音、さらには観客の笑い声まで含む完全なシーンビデオを生成します。このリアルさは視聴者に新しい感覚を与えます。次に、「Veo3」は複雑なプロンプトの理解能力にも優れており、論理的に連続し時間軸が整ったビデオクリップを生成できます。これは従来のビデオ生成モデルでは難しい課題でした。最後に、物理的な世界の音響処理にも秀でており、足音や料理の音などをシミュレートできるため、ビデオはよりダイナミックかつ没入感が増します。

「Veo3」のビデオ長は8秒までに制限されており、現在は249.99ドルのハイエンドサブスクリプションユーザー向けに限定提供されていますが、その音声と映像の同期能力には多くの注目が集まっています。今後、技術がさらに進化すれば、「Veo3」はビデオ生成技術を新たな高みへと引き上げると期待されています。