Novo método de prompt visual melhora o desempenho do GPT-4V

Pesquisadores apresentaram um novo método de prompt visual chamado SoM, que aprimora o desempenho do modelo multimodal GPT-4V da OpenAI em tarefas visuais de grão fino. O SoM utiliza um modelo de segmentação interativo para dividir a imagem em diferentes regiões e adicionar marcadores a cada uma delas. Dessa forma, o GPT-4V consegue entender melhor os objetos e as relações espaciais na imagem, superando o desempenho de modelos especializados e outros modelos multimodais de código aberto em diversas tarefas visuais. Esta pesquisa demonstra o potencial do GPT-4V em tarefas visuais de grão fino.