Recentemente, a equipe de pesquisa do Google lançou um novo modelo de linguagem visual, o PaLI-3. Este modelo apresenta um desempenho superior a modelos maiores, apesar de possuir menos parâmetros. A pesquisa utilizou um codificador de imagem pré-treinado de forma contrastiva, permitindo que o PaLI-3 se destacasse em várias tarefas de localização e compreensão de texto. O PaLI-3 alcançou os melhores resultados em vários conjuntos de dados de perguntas e respostas visuais, demonstrando uma poderosa capacidade de compreensão multimodal. A pesquisa comparou o pré-treinamento classificatório e o pré-treinamento contrastivo, descobrindo que este último leva a modelos de linguagem visual mais eficientes.