En la ola de la tecnología, el equipo SAIL de TikTok se ha aliado con el Laboratorio LV-NUS para lanzar un modelo de gran capacidad multimodal llamado SAIL-VL2. Este nuevo modelo supera a muchos modelos similares en tareas complejas de razonamiento, incluso puede competir con modelos cerrados más grandes, manteniendo un tamaño de parámetros relativamente pequeño. Este avance revolucionario sin duda amplía las posibilidades de aplicación de los modelos pequeños.
La configuración de parámetros de SAIL-VL2 está disponible en 2B y 8B, logrando avances en rendimiento en 106 conjuntos de datos, especialmente destacándose en benchmarks de razonamiento complejo como MMMU y MathVista. Este modelo presenta una nueva forma de pensar: "Los modelos pequeños también pueden tener grandes capacidades". Para asegurar esto, SAIL-VL2 ha realizado innovaciones en tres aspectos: datos, entrenamiento y diseño de arquitectura.

En cuanto al diseño de arquitectura, SAIL-VL2 introduce un sistema de expertos mezclados (MoE) para optimizar el rendimiento y la eficiencia computacional. Su codificador visual SAIL-ViT utiliza una optimización progresiva para mejorar gradualmente la alineación entre visión y lenguaje. Este diseño innovador permite que SAIL-VL2 active solo parte de sus parámetros durante la inferencia, mejorando significativamente la eficiencia computacional del modelo.
En el nivel de datos, SAIL-VL2 ha construido una base de datos de alta calidad multimodal, asegurando la precisión y diversidad de los datos mediante métodos de filtrado por puntuación y aumento sintético. Además, el equipo diseñó un marco de entrenamiento progresivo, pasando desde percepción básica hasta razonamiento complejo, lo que hace que el modelo tenga un mejor rendimiento en diferentes tareas.
Gracias a la optimización integral, SAIL-VL2 ha logrado avances notables en el rendimiento de su modelo base. Los datos muestran que este modelo destaca en varios benchmarks, y el modelo de 8B ya es comparable en capacidad de razonamiento con el reciente GPT-4o. Este progreso no solo trae nuevas esperanzas a la comunidad científica, sino que también abre nuevas vías para la aplicación de modelos multimodales en el futuro.
El código fuente y los modelos de SAIL-VL2 están disponibles en GitHub y Hugging Face, facilitando su uso y exploración profunda por parte de investigadores y desarrolladores. Ya sea en investigación académica o en aplicaciones industriales, SAIL-VL2 muestra un potencial y una perspectiva prometedores.





