Recentemente, a equipe de pesquisa do Google lançou um novo modelo de linguagem visual, o PaLI-3. Este modelo apresenta um desempenho superior a modelos maiores, apesar de possuir menos parâmetros. A pesquisa utilizou um codificador de imagem pré-treinado de forma contrastiva, permitindo que o PaLI-3 se destacasse em várias tarefas de localização e compreensão de texto. O PaLI-3 alcançou os melhores resultados em vários conjuntos de dados de perguntas e respostas visuais, demonstrando uma poderosa capacidade de compreensão multimodal. A pesquisa comparou o pré-treinamento classificatório e o pré-treinamento contrastivo, descobrindo que este último leva a modelos de linguagem visual mais eficientes.
Google lança novo modelo de linguagem visual PaLI-3 com desempenho robusto e menos parâmetros

学术头条
Este artigo é do AIbase Daily
Bem-vindo à coluna [AI Daily]! Este é o seu guia para explorar o mundo da inteligência artificial todos os dias. Todos os dias apresentamos os destaques da área de IA, com foco nos desenvolvedores, para o ajudar a obter insights sobre as tendências tecnológicas e a compreender as aplicações inovadoras de produtos de IA.