ViTMatte es un sistema de recorte de imágenes basado en transformadores visuales puros preentrenados (Plain Vision Transformers, ViTs). Utiliza un mecanismo de atención mixto y un cuello convolucional para optimizar el equilibrio entre rendimiento y cómputo, e introduce un módulo de captura de detalles para complementar la información detallada necesaria para el recorte. ViTMatte es el primer trabajo que libera el potencial de los ViT en el campo del recorte de imágenes mediante una adaptación sencilla, heredando las ventajas de los ViT en estrategias de preentrenamiento, diseño de arquitectura simple y estrategias de inferencia flexibles. En las dos pruebas de referencia más utilizadas para recorte de imágenes, Composition-1k y Distinctions-646, ViTMatte ha alcanzado el rendimiento más avanzado, superando con una gran ventaja a los trabajos anteriores.