Le Bloc-notes visuel est un framework qui fournit un tableau de croquis et des outils de dessin aux grands modèles linguistiques multimodaux (LLM). Il permet aux modèles d'opérer en fonction d'artefacts visuels qu'ils dessinent eux-mêmes lors de la planification et du raisonnement. Contrairement aux méthodes précédentes utilisant du texte comme étapes de raisonnement, le Bloc-notes visuel permet aux modèles de dessiner des éléments plus proches de la façon dont les humains dessinent, tels que des lignes, des cadres et des marques, afin de mieux faciliter le raisonnement. De plus, il peut utiliser des modèles visuels experts pendant le processus de dessin, tels que l'utilisation de modèles de détection d'objets pour dessiner des cadres ou l'utilisation de modèles de segmentation pour dessiner des masques, afin d'améliorer encore les capacités de perception et de raisonnement visuels.