El sistema DEJAVU utiliza un algoritmo económico y eficiente, combinado con procesamiento asíncrono y conocimiento del hardware, para mejorar la velocidad de inferencia de los grandes modelos de lenguaje (LLM). El equipo de investigación introdujo el concepto de escasez de contexto, recortando dinámicamente las cabezas de atención y los parámetros MLP, al mismo tiempo que emplea una multiplicación de matrices dispersas consciente del hardware, lo que reduce significativamente la latencia de los LLM. Esta investigación promete facilitar el acceso a los LLM para una comunidad de IA más amplia, abriendo nuevas aplicaciones de IA.
El sistema DEJAVU aumenta la velocidad de inferencia de los modelos lingüísticos grandes

站长之家
Este artículo proviene de AIbase Daily
¡Bienvenido a la columna [AI Diario]! Aquí está tu guía diaria para explorar el mundo de la inteligencia artificial. Todos los días te presentamos el contenido más destacado en el campo de la IA, centrándonos en los desarrolladores para ayudarte a comprender las tendencias tecnológicas y conocer las aplicaciones innovadoras de productos de IA.