En el campo de la inteligencia artificial (IA) multimodal, ingenieros de Apple y un equipo de investigación de la Universidad Sorbona de París han realizado un estudio importante. Recientemente, el medio tecnológico marktechpost publicó un artículo que analiza la aplicación y el futuro de los modelos de fusión temprana y fusión tardía en la IA multimodal. El estudio muestra que los modelos de fusión temprana entrenados desde cero ofrecen una mayor eficiencia computacional y escalabilidad.

El objetivo de la IA multimodal es procesar simultáneamente varios tipos de datos, como imágenes y texto. Sin embargo, la integración de estos datos de diferentes fuentes ha sido un desafío. Las técnicas actuales suelen utilizar una estrategia de fusión tardía (late-fusion), combinando modelos unimodales preentrenados (como modelos de visión y lenguaje). Aunque este método es sencillo, a menudo se ve limitado por los sesgos inherentes del preentrenamiento unimodal, lo que afecta la capacidad del modelo para captar las relaciones entre los diferentes modos en la comprensión verdaderamente multimodal.

Metaverso, Ciencia Ficción, Cyberpunk, Pintura (3) Modelo grande

Nota de la fuente: Imagen generada por IA, proveída por Midjourney

A medida que aumenta el tamaño del sistema, los parámetros, las necesidades de preentrenamiento y las características de escalabilidad de los distintos componentes difieren significativamente, lo que complica la asignación de recursos computacionales. Esto afecta gravemente al rendimiento, especialmente en tareas que requieren inferencia multimodal profunda. En este contexto, los equipos de Apple y la Sorbona desafiaron las opciones de arquitectura tradicionales y exploraron a fondo las características de escalabilidad de los modelos multimodales nativos (NMM).

El estudio comparó modelos de fusión temprana (early-fusion) y fusión tardía. Los resultados muestran que, aunque el rendimiento es similar cuando se entrenan desde cero, los modelos de fusión temprana son más eficientes y fáciles de escalar con presupuestos computacionales más bajos. Además, el equipo exploró arquitecturas dispersas de mezcla de expertos (MoE), que asignan parámetros dinámicamente y optimizan para diferentes modalidades. En comparación con los modelos densos, los modelos dispersos muestran ventajas significativas en modelos de menor escala.

El estudio demuestra que los modelos dispersos tienden a escalar los datos de entrenamiento (training tokens) en lugar de los parámetros activos (active parameters), a diferencia de los modelos densos. A través de experimentos sistemáticos, el equipo entrenó modelos multimodales con entre 0.3 y 4 mil millones de parámetros activos, lo que valida el potencial de la fusión temprana y las arquitecturas dispersas en el procesamiento multimodal. Estos hallazgos no solo desafían los conceptos de diseño tradicionales, sino que también ofrecen nuevas ideas para el desarrollo de sistemas de IA multimodal eficientes en el futuro.