Recientemente, el equipo de investigación de Google presentó PaLI-3, un nuevo modelo de lenguaje visual. A pesar de tener menos parámetros que modelos de mayor tamaño, PaLI-3 ofrece un rendimiento superior. La investigación utiliza un codificador de imágenes preentrenado de forma contrastiva, lo que permite a PaLI-3 destacar en diversas tareas de localización y comprensión de texto. PaLI-3 ha logrado los mejores resultados en varios conjuntos de datos de preguntas y respuestas visuales, demostrando una potente capacidad de comprensión multimodal. El estudio comparó el preentrenamiento clasificatorio con el preentrenamiento contrastivo, descubriendo que este último permite crear modelos de lenguaje visual más eficientes.