Con la llegada del examen de admisión universitaria, las matemáticas se han convertido una vez más en el "demonio" en la mente de los estudiantes. En esta competencia, seis modelos de inteligencia artificial también participaron en el desafío: DouBao de ByteDance, Yuanbao de Tencent, Tongyi de Alibaba, Wenxin X1Turbo de Baidu, DeepSeek de DeepQuest y o3 de OpenAI. Este examen utilizó las 14 preguntas de opción múltiple del examen estándar I de 2025, con un total de 73 puntos, que incluían preguntas de opción simple, opción múltiple y llenado de espacios.

imagen.png

Para asegurar la equidad del examen, todos los modelos respondieron sin la ayuda de pistas del sistema ni acceso a la búsqueda en línea, y cada modelo solo tuvo una oportunidad para responder. Después de la competencia, los resultados fueron sorprendentes: DouBao y Yuanbao obtuvieron 68 puntos cada uno, empatando en primer lugar, mostrando una excelente capacidad de razonamiento. En comparación, DeepSeek y Tongyi tuvieron un rendimiento menos impresionante, obteniendo respectivamente 63 y 62 puntos. Los resultados de Wenxin X1 y o3 fueron decepcionantes, especialmente o3, que solo obtuvo 34 puntos, lo que refleja una adaptación insuficiente a las preguntas de exámenes chinos.

imagen.png

En términos de rendimiento en tipos específicos de preguntas, DouBao, Tongyi y Yuanbao destacaron notablemente en las preguntas de opción simple, obteniendo cada uno 35 puntos. DeepSeek obtuvo 30 puntos debido a dos errores, mientras que o3 tuvo un desempeño decepcionante, obteniendo solo 20 puntos y fallando la mitad de las preguntas. En cuanto a las preguntas de opción múltiple, DouBao, DeepSeek y Yuanbao lograron respuestas perfectas en todas las tres preguntas, demostrando una gran estabilidad. Por otro lado, aunque Tongyi fue rápido en sus respuestas, algunos errores clave afectaron su puntuación.

Este examen no solo muestra el potencial y las debilidades de varios modelos de IA en matemáticas para exámenes universitarios, sino que también refleja su progreso en habilidades de razonamiento y reflexión. En comparación con el año pasado, estos modelos han mejorado significativamente en el manejo de detalles, aplicación de fórmulas y razonamiento lógico. A pesar de que aún existen errores y áreas de mejora, esta competencia sin duda ha sentado las bases para futuras capacidades matemáticas de la IA.