Hace unos días, la familia de modelos WENXIN de Baidu experimentó una importante actualización: ERNIE-4.5-21B-A3B-Thinking se lanzó de forma abierta y rápidamente se colocó en el primer lugar de la lista de modelos de generación de texto en la plataforma Hugging Face, ocupando también el tercer lugar en la lista general de modelos. Este modelo ligero de Mixture-of-Experts (MoE) ha llamado ampliamente la atención de la industria gracias a sus excepcionales capacidades de razonamiento y eficiencia en parámetros, marcando otro hito en la ecosfera de código abierto de inteligencia artificial en China.
Especificaciones principales del modelo y diseño innovador
ERNIE-4.5-21B-A3B-Thinking utiliza una arquitectura avanzada de MoE, con un tamaño total de parámetros de 21B, pero activa solo 3B parámetros por token. Esta mecanismo de activación dispersa reduce significativamente el costo computacional, manteniendo al mismo tiempo un alto rendimiento. El modelo admite una ventana de contexto de hasta 128K, lo que lo hace especialmente adecuado para tareas complejas de texto largo, como razonamiento lógico, resolución matemática y análisis académico.
A diferencia de los modelos principales que dependen del marco PyTorch, la serie ERNIE-4.5 se entrena y optimiza utilizando el marco de aprendizaje profundo PaddlePaddle desarrollado por Baidu. Este diseño de marco independiente no solo mejora la compatibilidad del modelo en tareas multimodales, sino que también garantiza una adaptación eficiente a los hardware. Actualmente, solo Baidu y Google utilizan marcos propios para entrenar grandes modelos a nivel mundial, lo que destaca su autonomía tecnológica y profundidad de innovación.
Rendimiento: Razonamiento eficiente desafía a gigantes de la industria
Según las pruebas recientes, el modelo muestra un excelente desempeño en tareas como razonamiento lógico, matemáticas, ciencia, programación y generación de texto, incluso superando o acercándose a modelos como Gemini 2.5 Pro y GPT-5 en ciertos indicadores. A pesar de tener un total de 21B de parámetros (aproximadamente el 70% de Qwen3-30B), su puntuación en benchmarks de razonamiento matemático como BBH y CMATH ya supera a competidores similares, mostrando una alta eficiencia en parámetros.
Además, el modelo incluye una función de llamada eficiente de herramientas, soportando llamadas estructuradas a funciones y integración con APIs externas, lo que lo hace adecuado para escenarios como síntesis de programas, razonamiento simbólico y flujos de trabajo con múltiples agentes. En cuanto a la comprensión de contextos largos, tras una formación especializada, puede manejar información masiva de manera estable y generar contenido sintético de nivel académico, reduciendo significativamente el problema de "falsificaciones". El modelo también admite optimización bilingüe (chino-inglés), siendo adecuado para aplicaciones globales de desarrolladores y empresas.
Los comentarios de la comunidad de código abierto muestran que la descarga y el índice de tendencia del modelo han subido bruscamente en Hugging Face, convirtiéndolo en una opción popular en el campo de la generación de texto. Los desarrolladores pueden integrarlo fácilmente mediante herramientas como vLLM, Transformers 4.54+ y FastDeploy, logrando implementación local o inferencia en la nube.
Significado del código abierto: impulsar la democratización de la IA y la construcción de ecosistemas
ERNIE-4.5-21B-A3B-Thinking se publica bajo la licencia Apache 2.0, permitiendo su uso comercial, lo que reduce aún más la barrera de la tecnología de IA. Tras el lanzamiento abierto de otras 10 versiones de la familia ERNIE 4.5 a finales de junio, esta publicación reforzó su liderazgo en el ámbito de la IA de código abierto. Actualmente, la mayoría de los modelos destacados en Hugging Face son resultados chinos de código abierto, lo que refleja la competitividad global de la IA china en arquitecturas MoE y optimización de razonamiento.
Como la última iteración del modelo WENXIN, este modelo no solo mejora el desempeño en tareas de seguimiento de instrucciones y conocimiento intensivo, sino que también fortalece su "pensamiento" a través de aprendizaje reforzado en múltiples rondas. En tareas de visión y lenguaje, su variante VL también muestra un buen desempeño, reduciendo la brecha con OpenAI-o1 en benchmarks como MathVista y MMMU.
Impacto en la industria y perspectivas futuras