Recientemente, el equipo de investigación de Google presentó PaLI-3, un nuevo modelo de lenguaje visual. A pesar de tener menos parámetros que modelos de mayor tamaño, PaLI-3 ofrece un rendimiento superior. La investigación utiliza un codificador de imágenes preentrenado de forma contrastiva, lo que permite a PaLI-3 destacar en diversas tareas de localización y comprensión de texto. PaLI-3 ha logrado los mejores resultados en varios conjuntos de datos de preguntas y respuestas visuales, demostrando una potente capacidad de comprensión multimodal. El estudio comparó el preentrenamiento clasificatorio con el preentrenamiento contrastivo, descubriendo que este último permite crear modelos de lenguaje visual más eficientes.
Google lanza PaLI-3, un nuevo modelo de lenguaje visual con un rendimiento potente y menos parámetros

学术头条
Este artículo proviene de AIbase Daily
¡Bienvenido a la columna [AI Diario]! Aquí está tu guía diaria para explorar el mundo de la inteligencia artificial. Todos los días te presentamos el contenido más destacado en el campo de la IA, centrándonos en los desarrolladores para ayudarte a comprender las tendencias tecnológicas y conocer las aplicaciones innovadoras de productos de IA.