El nuevo modelo de IA de alta resolución Griffon v2 combina señales de texto y visuales, ofreciendo referencias de objetos flexibles. El equipo mejoró la capacidad de percepción multimodal mediante el uso de un proyector de submuestreo. El modelo sobresale en tareas de generación de expresiones de referencia, localización de frases y comprensión de expresiones de referencia, superando a los modelos expertos. Con una estructura de coreferencia visual-lingüística, muestra una superioridad en la detección de objetos y el conteo de objetos.
Modelo de IA de alta resolución Griffon v2: Referencia flexible de texto e imágenes

站长之家
Este artículo proviene de AIbase Daily
¡Bienvenido a la columna [AI Diario]! Aquí está tu guía diaria para explorar el mundo de la inteligencia artificial. Todos los días te presentamos el contenido más destacado en el campo de la IA, centrándonos en los desarrolladores para ayudarte a comprender las tendencias tecnológicas y conocer las aplicaciones innovadoras de productos de IA.