Investigadores de la Universidad de Pekín y otras instituciones como Tencent presentaron LanguageBind, un marco de alineación multimodal que logra la alineación semántica de información multimodal utilizando el lenguaje como canal central. El equipo de investigación también construyó el conjunto de datos VIDAL-10M para el entrenamiento de información transmodal. La propuesta de LanguageBind sienta las bases para el desarrollo de técnicas de preentrenamiento multimodal, evitando al mismo tiempo la posible pérdida de información que podría introducirse a través de un intermediario de imagen.
LanguageBind: Un nuevo marco de alineación multimodal de la Universidad de Pekín y Tencent

站长之家
Este artículo proviene de AIbase Daily
¡Bienvenido a la columna [AI Diario]! Aquí está tu guía diaria para explorar el mundo de la inteligencia artificial. Todos los días te presentamos el contenido más destacado en el campo de la IA, centrándonos en los desarrolladores para ayudarte a comprender las tendencias tecnológicas y conocer las aplicaciones innovadoras de productos de IA.