ビジュアル・スケッチパッドは、マルチモーダル大規模言語モデル(LLM)に視覚的なスケッチパッドと描画ツールを提供するフレームワークです。このフレームワークにより、モデルは、自ら描いた視覚的な成果物を操作しながら、計画と推論を行うことができます。従来のテキストを推論ステップとして使用する手法とは異なり、ビジュアル・スケッチパッドでは、モデルは線、枠、マーカーなど、人間の描画方法により近い要素を使用して図を描くことができ、推論をより効果的に促進します。さらに、オブジェクト検出モデルによる境界ボックスの描画やセグメンテーションモデルによるマスクの描画など、専門的な視覚モデルを図面作成プロセスで使用することで、視覚認識と推論能力をさらに向上させることができます。