Bloc de Dibujo Visual es un marco que proporciona a los grandes modelos lingüísticos multimodales (LLM) una pizarra visual y herramientas de dibujo. Permite a los modelos operar basándose en artefactos visuales que ellos mismos dibujan durante la planificación y el razonamiento. A diferencia de los métodos anteriores que utilizan texto como pasos de razonamiento, Bloc de Dibujo Visual permite a los modelos dibujar utilizando elementos más cercanos a la forma de dibujar humana, como líneas, cuadros y marcas, facilitando así el razonamiento. Además, puede utilizar modelos visuales expertos durante el proceso de dibujo, como utilizar modelos de detección de objetos para dibujar cuadros delimitadores o utilizar modelos de segmentación para dibujar máscaras, con el fin de mejorar aún más la percepción y el razonamiento visuales.