O mais recente modelo de IA de alta resolução, Griffon v2, combina dicas de texto e visuais, fornecendo referências de objetos flexíveis. A equipe empregou um projetor de subamostragem para aprimorar a capacidade de percepção multimodal. O modelo se destacou nas tarefas de geração de expressões de referência, localização de frases e compreensão de expressões de referência, superando modelos especialistas. Com uma estrutura de co-referência visual-linguística, ele demonstra superioridade na detecção de objetos e na contagem de objetos.