Mejora de la Precisión Visual de GPT-4V

Un nuevo estudio propone el método de indicación visual "Conjunto de Marcas" (SoM) para mejorar la precisión visual de GPT-4V. Los experimentos demuestran que GPT-4V+SoM ofrece un rendimiento excelente en tareas de segmentación de imágenes, acercándose al rendimiento de los modelos especializados. El método de marcado automático/semiautomático de SoM permite que GPT-4V admita una variedad de tareas visuales de grano fino, incluyendo tareas de referencia y segmentación de objetos en vídeo.