El laboratorio NExT++ de la Universidad Nacional de Singapur, en colaboración con el equipo de Liu Zhiyuan de la Universidad Tsinghua, ha desarrollado un modelo multimodal de gran escala que integra un módulo de detección y segmentación, simplificando el proceso de recorte de imágenes. A través de descripciones en lenguaje natural, el modelo puede etiquetar rápidamente los objetos deseados y proporcionar explicaciones textuales.

El modelo ha demostrado un excelente rendimiento en varios conjuntos de datos de tareas, mostrando una buena capacidad para la segmentación de referencias y tareas REC. Además, el modelo introduce un método de modelado de posición basado en embeddings, lo que le proporciona una mejor capacidad de modelado de posición. Gracias a la optimización del proceso de entrenamiento, el modelo también logra un buen rendimiento en tareas de segmentación con datos de etiquetado escasos.