El equipo de司南OpenCompass del Laboratorio de Inteligencia Artificial de Shanghai y魔搭ModelScope han lanzado recientemente una actualización para CompassArena (竞技场 de modelos grandes), una plataforma de evaluación de modelos grandes, con el objetivo de ofrecer a los usuarios una experiencia de evaluación de modelos más científica y completa. Desde su lanzamiento, la plataforma ha atraído a una gran cantidad de usuarios de la comunidad que han contribuido con datos. Basándose en estos datos, CompassArena ha sido optimizada continuamente. Esta actualización incluye una nueva función, Judge Copilot, mejoras en el algoritmo de clasificación y la adición de más de 20 modelos nuevos.
La función Judge Copilot utiliza el potente modelo de evaluación Compass-Judger-1-32B-Instruct para proporcionar a los usuarios la capacidad de analizar de forma integral el rendimiento de los modelos de diálogo. Desde la evaluación multidimensional y la comparación en tiempo real hasta la asistencia en la toma de decisiones inteligentes, esta función hace que la evaluación subjetiva sea más precisa y eficiente. Además, el algoritmo de clasificación se ha actualizado completamente, mejorando el algoritmo de Bradley-Terry original e introduciendo variables de control para reducir el impacto de los factores de confusión, lo que hace que la clasificación de los modelos sea más científica y precisa. Los nuevos modelos incluyen modelos comerciales y de código abierto nacionales e internacionales, enriqueciendo la experiencia de la competición.
CompassArena concede gran importancia al rendimiento del modelo Judge en aplicaciones reales y recopila activamente los comentarios de los usuarios para mejorar aún más las capacidades generales y la alineación del modelo Judge. Los usuarios pueden expresar su opinión sobre el modelo Judge haciendo clic en los botones de "me gusta" y "no me gusta". Mediante el ajuste de un modelo estadístico de Bradley-Terry que incluye variables de control, CompassArena puede estimar el grado de influencia de numerosos factores externos, que se pueden expresar mediante una razón de posibilidades.
Esta actualización ha traído a CompassArena modelos comerciales nacionales como 360gpt2-pro, deep-seek-v2.5-chat y doubao-pro-32k-240828, así como modelos comerciales internacionales como claude-3.5-sonnet-20241022 y gemini-exp-1121, y una serie de modelos de código abierto. Las instituciones a las que pertenecen los nuevos modelos incluyen 360, DeepSeek y Doubao, ofreciendo a los usuarios una gama más amplia de opciones de competición.
Dirección de acceso: https://www.modelscope.cn/studios/opencompass/CompassArena