Los investigadores han presentado un nuevo método de indicaciones visuales llamado SoM, que mejora el rendimiento de GPT-4V, el modelo multimodal de OpenAI, en tareas visuales de grano fino. SoM utiliza un modelo de segmentación interactiva para dividir la imagen en diferentes regiones y añadir etiquetas a cada una. De esta manera, GPT-4V puede comprender mejor los objetos y las relaciones espaciales dentro de la imagen, superando en varias tareas visuales a modelos especializados y otros modelos multimodales de código abierto. Este estudio demuestra el potencial de GPT-4V en tareas visuales de grano fino.