英国サリー大学とスタンフォード大学の研究チームは、非芸術家によるものも含め、人間の線画スケッチを理解する人工知能(AI)を開発する新しい手法を開発しました。このモデルは、シーンのスケッチを識別する際に、人間レベルに近い性能を示しました。
サリー大学コンピュータビジョン、音声、信号処理センター(CVSSP)とサリー人民中心人工知能研究所(PAI)の講師であるYulia Gryaditskaya博士は、「スケッチは強力な視覚コミュニケーション言語です。口頭言語よりも表現力豊かで柔軟性がある場合もあります。スケッチを理解するツールを開発することは、より強力な人間とコンピューターのインタラクションと、より効率的な設計ワークフローへの一歩です。例えば、スケッチによる検索や画像の作成などが可能になります。」と述べています。年齢や背景に関わらず、人々は絵を描くことで新しいアイデアを探求し、コミュニケーションを取っています。しかし、人工知能システムはスケッチの理解に課題を抱えてきました。人工知能は画像を理解することを学ぶ必要があります。通常、これは時間と労力を要するプロセスで、画像の各ピクセルのラベル付けが必要です。そして、人工知能はこれらのラベルから学習します。
しかし、研究チームは、スケッチとテキスト記述の組み合わせによって人工知能を学習させました。これにより、AIはピクセルをグループ化し、記述内のカテゴリと一致させることを学習しました。その結果、人工知能はこれまで以上に豊かで、人間に近い理解能力を示しました。凧、木、キリンなどのオブジェクトを85%の精度で正しく識別およびラベル付けすることができ、ピクセルのラベル付けに依存する他のモデルを上回りました。複雑なシーン内のオブジェクトの識別に加えて、各ストロークがどのオブジェクトを描画するために使用されたのかを特定することもできます。この新しい手法は、非芸術家による非公式なスケッチだけでなく、明確にトレーニングされていないオブジェクトのスケッチにも適用できます。
スタンフォード大学心理学助教授のJudith Fanは、「絵画と筆記は最も典型的な人間の活動の1つであり、長年にわたり人々の観察や考え方を捉えるために使用されてきました。この研究は、人々が画像やテキストを使用するかに関わらず、人々が伝えようとしている考えの本質をAIシステムが理解できるという点で、素晴らしい進歩を遂げています。」と述べています。この研究は、サリー大学人民中心人工知能研究所、特にそのSketchX計画の一環として行われました。SketchXは人工知能を活用し、私たちが描く方法を通じて、私たちが世界を見る方法を理解しようとしています。
人民中心人工知能研究所の共同所長であり、SketchXの責任者である宋一哲教授は、「この研究は、AIがスケッチなどの基本的な人間の活動をどのように強化できるかを示す典型的な例です。粗雑なスケッチを人間に近い精度で理解することにより、この技術は、芸術的な才能の有無に関わらず、人々の自然な創造性を高める可能性を秘めています。」と述べています。
論文アドレス:https://arxiv.org/abs/2312.12463