2025年5月20日に開催されたGoogle I/Oデベロッパーカンファレンスで、グーグルは最新世代のビデオ生成モデルである「Veo3」を正式に発表しました。これにより、人工知能を活用したビデオ生成技術が新たな高みへと進展しました。

Veo3は画質やリアルさの向上だけでなく、初めてネイティブな音声生成機能も統合されており、ビデオクリエイターに今までにない創造的可能性を提供しています。以下はAIbaseが整理したVeo3の主要な特長と技術的な革新点です。

image.png

オリジナルの音声・映像一体化生成で創作効率が革命的に向上

Veo3の最大の特徴は、高品質な映像とそれにマッチする音声コンテンツを同時に生成できることです。鳥のさえずり、街中の交通音、さらにはキャラクターのセリフとその口型に合わせた効果音まで、単一のテキストプロンプトだけで一体化して生成できます。

この機能によりクリエイターは別途音声効果を調整したり、後編集をする必要がなくなり、ビデオ制作のプロセスが大幅に簡略化されます。グーグルによれば、Veo3は物理シミュレーションや口唇同期において特に優れており、現実世界の物理法則に従った滑らかな映像とリアリスティックな音響を生成できるとのことです。

超高解像度と多様なスタイルサポート

Veo3は最大で4K解像度の映像生成に対応しており、前世代のVeo2よりも細部表現と映像の一貫性が大きく向上しました。自然風景のタイムラプス、映画のようなトレッキングショット、広角構図のアート効果など、テキストプロンプトに含まれる微細な描写も正確に捉えて多様な映画的なビデオを生成します。この特徴により、専門的な映画製作者や新興クリエイター、教育関係者にとって強力なツールとなっています。

特定ユーザー向けに提供され、AI映像制作エコシステムに統合

現在、Veo3はアメリカ地域のGemini UltraサブスクリプションユーザーおよびVertex AIの企業ユーザーに限定して提供されています。また、グーグルのAI映像制作ツール「Flow」にも統合されています。この制限は、モデルの安全性と責任ある使用に対するグーグルの姿勢を示しています。内部にはデジタルウォーターマークや安全フィルタが組み込まれており、コンテンツの悪用や偽情報の拡散を防ぐための措置が講じられています。さらに、グーグルはGoogle LabsのWhiskプラットフォームを通じてVeo3の利用シーンをさらに広げる計画を進めています。

Veo3の登場は、OpenAI Soraなどの競合製品に対するグーグルの強力な回答として認識されています。ソーシャルメディア上では、業界関係者がVeo3の音声・映像一体化機能と高品質な出力を高く評価し、映画製作、広告クリエイティブ、教育コンテンツ作成の業界全体に新しい潮流をもたらすことを期待しています。しかし、一部のユーザーは複雑なシーンでの実際のパフォーマンスについてさらなる検証が必要だと指摘しています。

結びに

グーグルによるVeo3の登場は、AIがビデオ生成分野で達成した最新の進展を示すものであり、クリエイターにさらなる効率と柔軟性をもたらすツールを提供しました。AIbaseは今後もVeo3の追加適用とユーザーフィードバックを継続的に注視し、コンテンツ作成分野におけるさらなる可能性に期待しています。