Hace unos días, el Instituto de Telecomunicaciones de China (CAICT) presentó oficialmente el sistema de prueba "Fangsheng" versión 3.0, lo que marca un importante avance en la evaluación de inteligencia artificial (IA) en el país. Esta nueva versión se ha actualizado de manera integral en base a versiones anteriores, no solo incluye pruebas de propiedades básicas de los modelos, sino que también evalúa de forma sistemática características fundamentales como el tamaño de parámetros y la eficiencia de razonamiento del modelo. Además, este sistema tiene una visión prospectiva en la evaluación de capacidades avanzadas del futuro, centrándose en diez habilidades avanzadas, como la comprensión multimodal, la memoria a largo plazo y el aprendizaje autónomo, ofreciendo así una evaluación más profunda y contextualizada para industrias clave como la manufactura industrial, las ciencias básicas y el sector financiero.

Para implementar mejor la versión 3.0 de "Fangsheng", el CAICT ha fortalecido la construcción de infraestructuras de evaluación en varios aspectos. En primer lugar, planea expandir los recursos de datos de prueba de alta calidad, añadiendo 3 millones de registros adicionales para satisfacer las necesidades de evaluación de modelos en múltiples idiomas, tareas y escenarios. En segundo lugar, el CAICT investigará y aplicará métodos de prueba avanzados de forma sistemática, enfocándose en resolver problemas técnicos clave en la evaluación de grandes modelos, como la síntesis y evaluación de calidad de datos de prueba de alta calidad. Además, el CAICT construirá una base de evaluación inteligente de próxima generación, agregando entornos de simulación para interacción entre múltiples agentes inteligentes y percepción ambiental, con el fin de satisfacer las necesidades de evaluación de interacciones colaborativas entre agentes inteligentes y adaptabilidad a entornos dinámicos en escenarios complejos.

Desde 2024, el CAICT realizará una actividad de prueba de referencia de grandes modelos cada dos meses. En la última ronda de pruebas, se evaluaron 141 grandes modelos y 7 agentes, abarcando capacidades básicas, capacidad de razonamiento, aplicación de código y capacidad de comprensión multimodal. Los resultados de la prueba mostraron que GPT-5 de OpenAI sigue liderando en capacidad integral, mientras que Alibaba Qwen3-Max-Preview y Kimi K2 de Moonshot Demo tuvieron un buen desempeño. En la evaluación de modelos multimodales, se lograron avances en la comprensión de imágenes, pero aún hay margen de mejora en tareas de razonamiento lógico complejo.

Además, los resultados de la prueba en capacidad de aplicación de código mostraron que, aunque destacaron en tareas simples a nivel de función, aún tienen deficiencias en el desarrollo real de proyectos. Esto significa que la competencia tecnológica entre países sigue siendo intensa, y los agentes inteligentes aún deben esforzarse en la comprensión multimodal y el procesamiento de información compleja.

El CAICT continuará fortaleciendo la investigación y desarrollo tecnológico en la evaluación de grandes modelos, mejorando la credibilidad y autoridad de las evaluaciones, para respaldar la innovación en la vanguardia de la inteligencia artificial y el desarrollo de la industrialización nueva.