Kunlun Wildfire presenta Skywork-R1V 3.0: Capacidad de razonamiento multimodal que se acerca a la de los expertos humanos!

AIbase基地

Publicado elNoticias de IA · 4 minutos de lectura · Jul 9, 2025

19.6k

Hace poco, Kuaizhi Wanyi lanzó oficialmente su nuevo modelo de código abierto Skywork-R1V3.0, afirmando haber alcanzado un nivel sin precedentes en razonamiento multimodal, incluso comparable al nivel de expertos juniors humanos. Durante el proceso de entrenamiento, el modelo adoptó una estrategia de aprendizaje por refuerzo, logrando avances significativos en modelado lógico complejo y generalización del conocimiento interdisciplinario.

Skywork-R1V3.0 fue "arrancado" basándose en la generación anterior Skywork-R1V2.0, utilizando datos de alta calidad y técnicas de muestreo de rechazo para construir con éxito un conjunto de entrenamiento poderoso para el razonamiento multimodal. El diseño de este modelo no se limita solo al texto, sino que también incluye el procesamiento de imágenes, mejorando significativamente su capacidad para razonar entre imágenes y textos.

Según la introducción, el entrenamiento de Skywork-R1V3.0 depende solo de aproximadamente 12,000 muestras de ajuste fino supervisado y 13,000 muestras de aprendizaje por refuerzo, demostrando la ventaja única de "pequeños datos desencadenando grandes capacidades". En la evaluación multinodal autoritaria MMMU, Skywork-R1V3.0 obtuvo un puntaje de 76.0, superando a modelos de código cerrado como Claude-3.7-Sonnet (75.0) y GPT-4.5 (74.4), probando su destacada capacidad de comprensión cruzada de modalidades.

En escenarios específicos de aplicación, Skywork-R1V3.0 ha mostrado un excelente rendimiento en múltiples campos como física, lógica y razonamiento matemático. Por ejemplo, en la evaluación de razonamiento físico, el modelo logró las mejores puntuaciones abiertas de 52.8 y 31.5, demostrando su capacidad para entender problemas físicos complejos. Además, en la prueba de razonamiento lógico, Skywork-R1V3.0 también obtuvo una puntuación excelente de 59.7.

El modelo también es formidable en el razonamiento matemático, obteniendo excelentes puntuaciones de 77.1, 59.6 y 52.6 en evaluaciones como MathVista, MathVerse y MathVision, superando significativamente a otros modelos de código abierto. Estos excelentes resultados hacen de Skywork-R1V3.0 un fuerte competidor en el campo actual de razonamiento multimodal de código abierto.

El lanzamiento de Skywork-R1V3.0 marca un nuevo pico en la tecnología de razonamiento multimodal. Su potente rendimiento y naturaleza de código abierto promoverán grandemente el desarrollo adicional de la tecnología de inteligencia artificial.

Este artículo proviene de AIbase Daily

¡Bienvenido a la columna [AI Diario]! Aquí está tu guía diaria para explorar el mundo de la inteligencia artificial. Todos los días te presentamos el contenido más destacado en el campo de la IA, centrándonos en los desarrolladores para ayudarte a comprender las tendencias tecnológicas y conocer las aplicaciones innovadoras de productos de IA.

—— Creado por el grupo AIbase Daily

Product Finder

Product Submit

AI Models Finder

MCP Servers

MCP Client

MCP Inspector

Case Tutorials

Latest AI News

AI Daily Brief

Kunlun Wildfire presenta Skywork-R1V 3.0: Capacidad de razonamiento multimodal que se acerca a la de los expertos humanos!

AIbase基地

Este artículo proviene de AIbase Daily