グーグル研究部門の最新の発表によると、同社の動画生成モデル「Veo3」は視覚AI分野で画期的な進展を遂げ、「GPT-3」時代と称されるほどの成果を収めました。Veo3に対して一連のテストが行われた結果、このモデルは動画生成にとどまらず、追加のトレーニングなしで複数の複雑な視覚タスクを自動的に行えることが確認されました。

18,384の最も単純な動画生成タスクを用いてテストした結果、Veo3は驚くほど多機能性を示し、物体の検索や写真の修復、迷路の遊び方、数独の解き方など、さまざまなタスクをこなすことができました。具体的には、Veo3は以下の機能を持っています:

  • 画像を理解する: 画像内のエッジ、輪郭、物体の位置、色、形状などの基本的な視覚要素を自動的に識別できます。

  • 物理法則を理解する: 基本的な物理的知識を持ち、浮遊する物と沈む物を区別でき、光の反射の仕組みを理解しています。

  • 手動編集を行う: 「自動版Photoshop」として、背景の削除や文字の追加、写真を油絵風に変換するような複雑な画像編集タスクを実行できます。

  • 「論理的」能力を持つ: 迷路の画像に対して、自ら道を計画し、迷路を通過するルートを描くことができます。

グーグル研究部門は、Veo3のこのような突破が視覚AI分野において新たな段階に入ったことを示しており、その汎用性と自律的なタスク解決能力は自然言語処理分野におけるGPT-3と同等であると評価しています。