El equipo Qwen de Alibaba anunció el lanzamiento de una nueva serie de modelos de modelado de preferencias llamada WorldPM, que incluye WorldPM-72B y sus versiones derivadas WorldPM-72B-HelpSteer2, WorldPM-72B-RLHFLow y WorldPM-72B-UltraFeedback. Este anuncio ha captado la atención de la comunidad global de desarrolladores de IA, considerándose un avance importante en el campo del modelado de preferencias.

imagen.png

WorldPM: Una nueva exploración en el modelado de preferencias

WorldPM (World Preference Modeling) es el último trabajo del equipo Qwen en el campo del modelado de preferencias. Según la presentación oficial, este modelo ha validado que el modelado de preferencias sigue leyes de escalabilidad similares a las del modelado lingüístico mediante el entrenamiento con un conjunto de datos de preferencias de 15 millones de ejemplos a gran escala. Esto significa que, a medida que se expanden los datos y el tamaño del modelo, el modelo de preferencias puede aprender una representación uniforme de las preferencias, lo que mejora significativamente el rendimiento en aprendizaje supervisado.

La serie WorldPM-72B está construida con un tamaño de parámetros de 72 mil millones y está diseñada específicamente para evaluar y optimizar la salida de otros modelos. La empresa señaló que, en comparación con el entrenamiento desde cero, el ajuste fino basado en WorldPM puede mejorar notablemente el rendimiento, especialmente en escenarios donde es necesario capturar las preferencias humanas. Esta característica lo convierte en una herramienta ideal para aprendizaje por refuerzo y ajuste fino supervisado, proporcionando a los desarrolladores un camino eficiente para optimizar modelos.

Estrategia de código abierto: Empoderando a desarrolladores globales

El equipo Qwen ha mantenido tradicionalmente su espíritu de código abierto, y todos los modelos de la serie WorldPM están disponibles bajo la licencia Apache2.0, ya disponibles en la plataforma Hugging Face para que los desarrolladores de todo el mundo los descarguen y utilicen gratuitamente. Esta estrategia de apertura no solo reduce las barreras tecnológicas, sino que también refuerza la posición líder de Qwen en el ecosistema global de IA de código abierto. Los comentarios de los desarrolladores en la plataforma X muestran que el lanzamiento de WorldPM ha sido aclamado como un "nuevo hito en el ecosistema de modelos de código abierto", generando discusiones entusiastas en áreas como el aprendizaje supervisado y la evaluación de preferencias.

Es importante destacar que WorldPM no es un modelo de diálogo generalista, sino que se centra en proporcionar puntuaciones y orientación para optimizar otros modelos. Por ejemplo, los desarrolladores pueden utilizar WorldPM-72B para puntuar las respuestas de un modelo de IA generativa, mejorando así su rendimiento en tareas específicas. Esta especialización lo convierte en un papel clave en la cadena de desarrollo de IA.

Destacados técnicos: Un equilibrio entre escala y eficiencia

Durante el desarrollo de WorldPM, el equipo Qwen recopiló datos de preferencias diversificados de foros públicos, cubriendo varias comunidades de usuarios, asegurando la adaptabilidad del modelo en diferentes contextos culturales y lingüísticos. Con una escala de datos de 15 millones de ejemplos y arquitecturas de modelos que van de 1.5 mil millones a 72 mil millones de parámetros, WorldPM muestra una capacidad de generalización impresionante. El informe técnico oficial indica que WorldPM demostró un excelente rendimiento en evaluaciones adversarias, mostrando una pérdida en las pruebas que sigue una ley de potencia descendente, lo que sugiere que el modelo puede identificar eficazmente respuestas incorrectas intencionadas, así como respuestas irrelevantes o incompletas.

Además, la optimización del sesgo de estilo en WorldPM merece atención. A medida que aumenta el tamaño del modelo, WorldPM tiende a mostrar un estilo neutral, superando problemas de sesgo comunes en la evaluación subjetiva. Esto lo hace especialmente destacado en áreas objetivas, mostrando una ventaja significativa en tareas que requieren razonamiento preciso, como la codificación y las matemáticas.

Hugging Face: https://huggingface.co/Qwen/WorldPM-72B