Recientemente, Tencent lanzó la versión oficial de su serie de modelos grandes de lenguaje HunYuan: HunYuan-T1. Este nuevo modelo se basa en la base de tamaño medio de HunYuan y, después de un entrenamiento a gran escala, ha mejorado significativamente su capacidad de razonamiento, especialmente en el pensamiento profundo y la resolución de problemas complejos. Desde el lanzamiento de HunYuan T1-Preview en febrero de este año, los usuarios han experimentado un proceso de pensamiento más rápido y profundo, y el lanzamiento de esta versión oficial marca una nueva actualización de la serie.

QQ_1742781079757.png

El equipo de desarrollo de HunYuan-T1 utiliza la base TurboS de última generación, un modelo MoE híbrido Transformer-Mamba a gran escala líder en la industria. TurboS muestra ventajas únicas en el razonamiento de textos largos, resolviendo eficazmente el problema de la pérdida de contexto y la dependencia de información a larga distancia. Además, la arquitectura Mamba está optimizada para mantener la capacidad de captura de información mientras reduce significativamente el consumo de recursos de cálculo. Según los datos oficiales, bajo las mismas condiciones de implementación, la velocidad de decodificación de HunYuan-T1 es el doble de rápida.

QQ_1742781123687.png

En la fase de entrenamiento posterior, el equipo invirtió el 96,7% de la capacidad de cálculo en el entrenamiento de aprendizaje por refuerzo, centrándose en mejorar la capacidad de razonamiento y alinear las preferencias humanas. El equipo recopiló una gran cantidad de problemas científicos mundiales, que abarcan las matemáticas, el razonamiento lógico, la ciencia y el código, para garantizar que el modelo muestre un rendimiento excelente en diversas tareas de razonamiento. Durante el entrenamiento, se utilizó un método de aprendizaje por etapas para aumentar gradualmente la dificultad de los datos.

Acceso a la experiencia: https://llm.hunyuan.tencent.com/?ref=producthunt#/chat/hy-t1