Con el desarrollo de la inteligencia artificial, la aplicación de los grandes modelos lingüísticos (LLM) se está volviendo cada vez más amplia. Sin embargo, las formas actuales de razonamiento aún presentan muchas limitaciones. El método tradicional de generación autoregresiva necesita generar tokens uno por uno, lo que es ineficiente y no puede aprovechar plenamente la capacidad de cálculo paralelo de la hardware moderna. Para resolver este problema, un equipo de investigación de Carnegie Mellon University (CMU) y NVIDIA ha lanzado un nuevo modelo de generación llamado Multiverse, diseñado para lograr una generación nativa en paralelo, cambiando fundamentalmente nuestra comprensión de la inferencia de LLM.

Multiverse no solo acelera la velocidad de generación, sino que también repiensa la arquitectura del modelo. Los investigadores han descubierto que los principales modelos lingüísticos actuales implícitamente contienen una cierta paralelización durante el proceso de generación. Basándose en este hallazgo, el marco Multiverse adopta una estructura similar a MapReduce, dividiendo el proceso de generación en tres etapas: descomposición adaptativa de tareas, ejecución paralela de subtareas y combinación sin pérdidas de resultados. Este diseño puede aprovechar al máximo el potencial de los recursos computacionales, logrando un proceso de inferencia más eficiente.

Según los datos experimentales, el modelo Multiverse-32B muestra un rendimiento casi un 2% superior al de los modelos autoregresivos bajo la misma longitud de contexto. Esto indica que Multiverse no solo mejora notablemente la velocidad, sino que también tiene un excelente rendimiento en términos de escalabilidad, alcanzando hasta dos veces más rápido en diferentes tamaños de lote. Para que esta tecnología pueda aplicarse más ampliamente, el equipo de investigación ha abierto el ecosistema completo de Multiverse, incluidos los datos, los pesos del modelo y los detalles del entrenamiento, facilitando así que otros investigadores exploren más a fondo.
En su aplicación práctica, Multiverse puede ajustarse flexiblemente según la demanda de generación y realizar un cambio dinámico entre generación en serie y en paralelo mediante una etiqueta de control especial, asegurando la coherencia y la lógica del contenido generado. La introducción de esta tecnología sin duda inyecta un nuevo impulso al campo del procesamiento del lenguaje natural, y esperamos ver su rendimiento en aplicaciones reales.