O mais recente modelo de IA de alta resolução, Griffon v2, combina dicas de texto e visuais, fornecendo referências de objetos flexíveis. A equipe empregou um projetor de subamostragem para aprimorar a capacidade de percepção multimodal. O modelo se destacou nas tarefas de geração de expressões de referência, localização de frases e compreensão de expressões de referência, superando modelos especialistas. Com uma estrutura de co-referência visual-linguística, ele demonstra superioridade na detecção de objetos e na contagem de objetos.
Modelo de IA de alta resolução Griffon v2: Referência flexível de texto e visual

站长之家
Este artigo é do AIbase Daily
Bem-vindo à coluna [AI Daily]! Este é o seu guia para explorar o mundo da inteligência artificial todos os dias. Todos os dias apresentamos os destaques da área de IA, com foco nos desenvolvedores, para o ajudar a obter insights sobre as tendências tecnológicas e a compreender as aplicações inovadoras de produtos de IA.