Hace poco, Kuaizhi Wanyi lanzó oficialmente su nuevo modelo de código abierto Skywork-R1V3.0, afirmando haber alcanzado un nivel sin precedentes en razonamiento multimodal, incluso comparable al nivel de expertos juniors humanos. Durante el proceso de entrenamiento, el modelo adoptó una estrategia de aprendizaje por refuerzo, logrando avances significativos en modelado lógico complejo y generalización del conocimiento interdisciplinario.
Skywork-R1V3.0 fue "arrancado" basándose en la generación anterior Skywork-R1V2.0, utilizando datos de alta calidad y técnicas de muestreo de rechazo para construir con éxito un conjunto de entrenamiento poderoso para el razonamiento multimodal. El diseño de este modelo no se limita solo al texto, sino que también incluye el procesamiento de imágenes, mejorando significativamente su capacidad para razonar entre imágenes y textos.
Según la introducción, el entrenamiento de Skywork-R1V3.0 depende solo de aproximadamente 12,000 muestras de ajuste fino supervisado y 13,000 muestras de aprendizaje por refuerzo, demostrando la ventaja única de "pequeños datos desencadenando grandes capacidades". En la evaluación multinodal autoritaria MMMU, Skywork-R1V3.0 obtuvo un puntaje de 76.0, superando a modelos de código cerrado como Claude-3.7-Sonnet (75.0) y GPT-4.5 (74.4), probando su destacada capacidad de comprensión cruzada de modalidades.
En escenarios específicos de aplicación, Skywork-R1V3.0 ha mostrado un excelente rendimiento en múltiples campos como física, lógica y razonamiento matemático. Por ejemplo, en la evaluación de razonamiento físico, el modelo logró las mejores puntuaciones abiertas de 52.8 y 31.5, demostrando su capacidad para entender problemas físicos complejos. Además, en la prueba de razonamiento lógico, Skywork-R1V3.0 también obtuvo una puntuación excelente de 59.7.
El modelo también es formidable en el razonamiento matemático, obteniendo excelentes puntuaciones de 77.1, 59.6 y 52.6 en evaluaciones como MathVista, MathVerse y MathVision, superando significativamente a otros modelos de código abierto. Estos excelentes resultados hacen de Skywork-R1V3.0 un fuerte competidor en el campo actual de razonamiento multimodal de código abierto.
El lanzamiento de Skywork-R1V3.0 marca un nuevo pico en la tecnología de razonamiento multimodal. Su potente rendimiento y naturaleza de código abierto promoverán grandemente el desarrollo adicional de la tecnología de inteligencia artificial.