El 24 de abril, Kunlun Wanwei anunció el lanzamiento de código abierto de su modelo de inferencia multimodal Skywork-R1V2.0 (en adelante, R1V2.0). Esta versión mejorada ha logrado mejoras significativas en la capacidad de inferencia visual y de texto, especialmente en la inferencia profunda de problemas de ciencias de la escuela secundaria y en escenarios de tareas generales, convirtiéndose en uno de los modelos multimodales de código abierto más equilibrados en cuanto a capacidad de inferencia visual y de texto.

El lanzamiento de código abierto de R1V2.0 no solo refleja la fortaleza tecnológica de Kunlun Wanwei en el campo multimodal, sino que también proporciona a los desarrolladores e investigadores de todo el mundo una herramienta poderosa para impulsar el desarrollo del ecosistema multimodal. Este modelo ha batido récords SOTA de código abierto en varias pruebas de referencia autorizadas, mostrando una capacidad comparable a la de los modelos comerciales de código cerrado.

Mejora integral del rendimiento, líder en escenarios chinos

El rendimiento de R1V2.0 es particularmente destacado en escenarios chinos, especialmente en la inferencia de problemas de ciencias (matemáticas, física y química), funcionando como un asistente gratuito de resolución de problemas de IA. Este modelo no solo obtuvo una excelente puntuación de 73.6 en MMMU, batiendo el récord SOTA de código abierto, sino que también alcanzó los 62.6 puntos en Olympiad Bench, superando significativamente a otros modelos de código abierto. Además, R1V2.0 ha demostrado un excelente rendimiento en varias clasificaciones de inferencia visual, como MathVision, MMMU-PRO y MathVista, y muchas de sus capacidades son comparables a las de los modelos comerciales de código cerrado.

En cuanto a la inferencia de texto, R1V2.0 obtuvo 78.9 puntos en AIME2024 y 63.6 puntos en LiveCodeBench, demostrando una capacidad de comprensión matemática y de código a nivel de experto humano. Estos resultados muestran que R1V2.0 no solo destaca en la inferencia visual, sino que también posee una capacidad excepcional en la inferencia de texto.

微信截图_20250424103054.png

Puntos destacados tecnológicos: modelo de recompensa multimodal y optimización de preferencias mixtas

La mejora del rendimiento de R1V2.0 se debe a varias innovaciones tecnológicas. Entre ellas, la más destacada es el nuevo modelo de recompensa multimodal Skywork-VL Reward y el mecanismo de optimización de preferencias mixtas (MPO).

El modelo Skywork-VL Reward proporciona señales de recompensa de alta calidad para el aprendizaje por refuerzo multimodal, pudiendo evaluar con precisión la calidad general de la salida de secuencia larga del modelo de inferencia multimodal. Este modelo obtuvo una puntuación SOTA de 73.1 en la clasificación de modelos de recompensa visual VL-RewardBench, y también obtuvo una excelente puntuación de 90.1 en la clasificación de modelos de recompensa de texto puro RewardBench, mostrando su poderosa capacidad de generalización en tareas multimodales y de texto.

El mecanismo MPO, a través de la introducción de múltiples funciones de pérdida para la optimización colaborativa, resuelve el problema de la "mejora de la inferencia profunda" y el "mantenimiento de la capacidad general" en el entrenamiento de modelos grandes. R1V2.0, con la ayuda de las señales de preferencia proporcionadas por Skywork-VL Reward, guía al modelo para realizar una optimización de consistencia de preferencias, asegurando que el modelo tenga una buena capacidad de adaptación general en múltiples tareas y dominios. Además, R1V2.0 utiliza el método de optimización de estrategia relativa de grupo basada en reglas GRPO durante el entrenamiento de la capacidad de inferencia profunda, guiando al modelo a aprender rutas de selección e inferencia más precisas mediante la comparación de recompensas relativas entre las respuestas candidatas del mismo grupo.

Código abierto continuo, impulsando el desarrollo de AGI

Kunlun Wanwei siempre se ha dedicado a promover el código abierto y la innovación en inteligencia artificial. El lanzamiento de código abierto de R1V2.0 es un hito importante para Kunlun Wanwei en el campo multimodal. Los pesos de 38B y el informe técnico completo del modelo ya están disponibles de forma totalmente abierta en Hugging Face y GitHub, y los desarrolladores pueden acceder y utilizar libremente estos recursos.

Kunlun Wanwei afirma que el código abierto impulsa la innovación y que la AGI llegará finalmente. R1V2.0 no solo impulsa la ruptura de los límites de capacidad de los grandes modelos multimodales de código abierto, sino que también proporciona un nuevo modelo base para la construcción de agentes de inteligencia multimodal. En el futuro, Kunlun Wanwei continuará adhiriéndose al concepto de "código abierto, abierto y co-creación", lanzando continuamente modelos y conjuntos de datos líderes, empoderando a los desarrolladores, impulsando la innovación colaborativa de la industria y acelerando el proceso de realización de la inteligencia artificial general (AGI).

-Pesos del modelo:

Hugging Face - Skywork-R1V2.0-38B

-Repositorio de código:

GitHub - SkyworkAI/Skywork-R1V

-Informe técnico:

https://arxiv.org/abs/2504.16656