Recientemente, el equipo de investigación de IA de Apple presentó su nueva familia de modelos lingüísticos grandes multimodales (MLLM): MM1.5. Esta serie de modelos puede combinar varios tipos de datos, como texto e imágenes, mostrando las nuevas capacidades de la IA para comprender tareas complejas. Tareas como la respuesta a preguntas visuales, la generación de imágenes y la interpretación de datos multimodales se pueden resolver mejor con la ayuda de estos modelos.

image.png

Un gran desafío para los modelos multimodales es cómo lograr una interacción efectiva entre diferentes tipos de datos. Los modelos anteriores a menudo tenían dificultades para procesar imágenes ricas en texto o tareas visuales de grano fino. Por lo tanto, el equipo de investigación de Apple introdujo un innovador método de centralización de datos en los modelos MM1.5, utilizando datos OCR de alta resolución y descripciones de imágenes sintéticas para fortalecer la capacidad de comprensión del modelo.

image.png

Este método no solo permite que MM1.5 supere a los modelos anteriores en tareas de comprensión y localización visual, sino que también presenta dos modelos especializados: MM1.5-Video y MM1.5-UI, para la comprensión de video y el análisis de interfaces móviles, respectivamente.

El entrenamiento del modelo MM1.5 se divide en tres etapas principales.

La primera etapa es el preentrenamiento a gran escala, utilizando 2 mil millones de pares de imágenes y texto, 600 millones de documentos de imagen y texto entrelazados y 2 billones de tokens de solo texto.

La segunda etapa es el preentrenamiento continuo mediante 45 millones de datos OCR de alta calidad y 7 millones de descripciones sintéticas, para mejorar aún más el rendimiento de las tareas de imágenes ricas en texto.

Finalmente, en la etapa de ajuste fino supervisado, el modelo utiliza datos cuidadosamente seleccionados de imágenes individuales, múltiples imágenes y solo texto para optimizarlo y hacerlo más hábil en referencias visuales detalladas y razonamiento multi-imagen.

Después de una serie de evaluaciones, el modelo MM1.5 mostró un excelente rendimiento en varias pruebas de referencia, especialmente en el procesamiento de la comprensión de imágenes ricas en texto, con una mejora de 1.4 puntos en comparación con los modelos anteriores. Además, incluso MM1.5-Video, especializado en la comprensión de video, alcanzó un nivel líder en tareas relacionadas gracias a sus potentes capacidades multimodales.

La familia de modelos MM1.5 no solo establece nuevos estándares para los modelos lingüísticos grandes multimodales, sino que también demuestra su potencial en diversas aplicaciones, desde la comprensión general de texto e imagen hasta el análisis de video e interfaces de usuario, con un rendimiento excepcional.

Puntos clave:

🌟 **Variantes del modelo**: Incluye modelos densos y MoE con parámetros que van desde 1 mil millones hasta 30 mil millones, garantizando la escalabilidad y la implementación flexible.

📊 **Datos de entrenamiento**: Se utilizan 2 mil millones de pares de imágenes y texto, 600 millones de documentos de imagen y texto entrelazados y 2 billones de tokens de solo texto.

🚀 **Mejora del rendimiento**: Se logró una mejora de 1.4 puntos en comparación con los modelos anteriores en las pruebas de referencia centradas en la comprensión de imágenes ricas en texto.