El Grupo Tencent ha lanzado oficialmente y abierto al público una nueva incorporación a la familia de modelos de HuanYuan: el modelo HuanYuan-A13B. Este modelo utiliza una arquitectura basada en mezcla de expertos (MoE), con un tamaño total de parámetros de 80 mil millones y parámetros activos de 13 mil millones. Mantiene los mejores resultados entre los modelos abiertos, reduciendo significativamente el retraso en la inferencia y el costo computacional, ofreciendo así una solución de inteligencia artificial más rentable para desarrolladores individuales y pequeñas y medianas empresas.
Según informó Tencent, el modelo HuanYuan-A13B puede implementarse incluso con solo una tarjeta gráfica de gama media-baja en condiciones extremas. Los usuarios pueden descargarlo a través de comunidades tecnológicas como GitHub o HuggingFace, y también se ha lanzado su API en el sitio web oficial de Tencent Cloud. Esta característica permite que más desarrolladores accedan a tecnologías de inteligencia artificial de vanguardia a bajo costo, impulsando la implementación de aplicaciones innovadoras.
En cuanto al rendimiento, el modelo HuanYuan-A13B muestra resultados destacados en tareas de razonamiento matemático, científico y lógico. Por ejemplo, en pruebas de razonamiento matemático, el modelo puede completar correctamente comparaciones de decimales y mostrar capacidad de análisis paso a paso. Además, este modelo admite la llamada de herramientas para generar respuestas a instrucciones complejas, como planes de viaje o análisis de archivos de datos, brindando un sólido apoyo para el desarrollo de aplicaciones de agentes (Agent).
A nivel técnico, el modelo HuanYuan-A13B mejoró su capacidad de razonamiento mediante el uso de un corpus de 2 billones de palabras de alta calidad durante el entrenamiento previo, y perfeccionó el sistema teórico de la ley de escalado de la arquitectura MoE, proporcionando orientación cuantificable para el diseño del modelo. Además, el modelo permite a los usuarios elegir el modo de pensamiento según sus necesidades: el modo rápido ofrece salidas concisas y eficientes, mientras que el modo lento implica pasos más profundos de razonamiento, equilibrando así eficiencia y precisión.
Para promover aún más el ecosistema de código abierto de IA, Tencent también ha abierto al público dos nuevos conjuntos de datos. ArtifactsBench se utiliza principalmente para la evaluación de código, construyendo una nueva base con 1825 tareas; C3-Bench está orientado a la evaluación de modelos en escenarios de Agent, diseñando 1024 datos de prueba para detectar las debilidades del modelo.
La apertura al público del modelo HuanYuan-A13B es otro logro de la continua inversión de Tencent en el campo de la IA. En el futuro, la familia de modelos HuanYuan de Tencent lanzará más modelos con diferentes tamaños y características, compartiendo tecnologías prácticas con la comunidad y promoviendo juntos la prosperidad del ecosistema de código abierto.
Punto de acceso: https://hunyuan.tencent.com/
Ubicación del código abierto: https://github.com/Tencent-Hunyuan