Hace poco, el equipo de investigación de NVIDIA lanzó el nuevo modelo OmniVinci, un modelo de comprensión multimodal, que mostró un excelente rendimiento en varios benchmarks de comprensión multimodal, superando a los modelos más avanzados actuales en 19.05 puntos. Más notable aún es que durante el proceso de entrenamiento, OmniVinci utilizó solo 0,2 billones de tokens de entrenamiento, seis veces menos que la competencia, que utilizó 1,2 billones.
El objetivo principal de OmniVinci es crear un sistema de inteligencia artificial capaz de comprender visual, auditivo y textual, permitiendo a las máquinas percibir y comprender el mundo complejo como lo hacen los humanos. Para lograr este objetivo, el equipo de investigación no solo aumentó la cantidad de datos, sino que también logró mejoras en rendimiento y eficiencia mediante arquitecturas innovadoras de redes y estrategias de gestión de datos.
En cuanto al diseño, OmniVinci utiliza el concepto de espacio latente multimodal, con el fin de fusionar información proveniente de diferentes sentidos, logrando así una comprensión y razonamiento cruzado. El equipo de investigación descubrió que los diferentes modos pueden fortalecerse mutuamente tanto en el nivel de percepción como en el de razonamiento, lo que proporciona una dirección para la construcción de sistemas de IA multimodal.

El diseño arquitectónico de OmniVinci ofrece capacidades de comprensión cruzada multimodal, integrando entradas heterogéneas como imágenes, videos, audio y texto. A través de un mecanismo de alineación multimodal uniforme, el modelo puede integrar la información de incrustación de diferentes modos en un espacio latente, y luego introducirla en un modelo de lenguaje grande (LLM). Este mecanismo incluye tres tecnologías clave, donde el módulo OmniAlignNet alinea eficazmente la información visual y auditiva, mientras que el agrupamiento de incrustaciones temporales y la incrustación temporal con restricción de rotación mejoran la comprensión del modelo sobre la información temporal.
Para desarrollar la capacidad de comprensión multimodal de OmniVinci, el equipo de investigación adoptó un método de entrenamiento en dos etapas. En primer lugar, se realizó un entrenamiento específico por modalidad, seguido de un entrenamiento conjunto multimodal, utilizando datos de aprendizaje implícito y explícito, lo que mejoró significativamente la capacidad del modelo de comprensión conjunta.
Con el lanzamiento de OmniVinci, NVIDIA nuevamente demostró su innovación tecnológica en el campo de la inteligencia artificial, indicando que los sistemas de IA del futuro serán más inteligentes y flexibles.
github: https://github.com/NVlabs/OmniVinci
Puntos clave:
🌟 El modelo OmniVinci superó a los modelos de vanguardia en 19,05 puntos en pruebas de comprensión multimodal.
📊 La cantidad de datos de entrenamiento es solo una sexta parte de la competencia, mejorando la eficiencia de los datos hasta seis veces.
🔑 Utiliza una arquitectura innovadora y un método de entrenamiento en dos etapas, mejorando significativamente la capacidad del modelo para comprender múltiples modos.





