最新的高分辨率 AI 模型 Griffon v2 结合了文本和视觉线索,提供灵活的对象引用。团队采用降采样投影仪增强了多模态感知能力。该模型在引用表达生成、短语定位和引用表达理解任务中表现出色,优于专家模型。具有视觉 - 语言共指结构,在目标检测和对象计数方面表现出优越性。