Un nuevo estudio propone el método de indicación visual "Conjunto de Marcas" (SoM) para mejorar la precisión visual de GPT-4V. Los experimentos demuestran que GPT-4V+SoM ofrece un rendimiento excelente en tareas de segmentación de imágenes, acercándose al rendimiento de los modelos especializados. El método de marcado automático/semiautomático de SoM permite que GPT-4V admita una variedad de tareas visuales de grano fino, incluyendo tareas de referencia y segmentación de objetos en vídeo.
Investigación de Microsoft: Mejora de la precisión visual de GPT-4V mediante "marcas"

机器之心
Este artículo proviene de AIbase Daily
¡Bienvenido a la columna [AI Diario]! Aquí está tu guía diaria para explorar el mundo de la inteligencia artificial. Todos los días te presentamos el contenido más destacado en el campo de la IA, centrándonos en los desarrolladores para ayudarte a comprender las tendencias tecnológicas y conocer las aplicaciones innovadoras de productos de IA.