El viernes, Tencent lanzó un marco de entrenamiento de modelos grandes llamado WeChat-YATT (Yet Another Transformer Trainer), desarrollado basado en Megatron-Core y SGLang/vLLM, con el código interno de proyecto gCore. Este marco de entrenamiento se enfoca en el aprendizaje por refuerzo y el entrenamiento de modelos multimodales, comprometiéndose a proporcionar soluciones para el entrenamiento de modelos grandes que sean fáciles de extender, simples, eficientes y confiables para los desarrolladores.
WeChat-YATT puede manejar eficazmente escenarios complejos como modelos de gran tamaño, entradas de secuencias largas y conjuntos de datos grandes mediante estrategias personalizadas de cálculo paralelo, resolviendo con éxito problemas clave en varios escenarios empresariales internos de WeChat, mejorando significativamente la eficiencia del entrenamiento de modelos grandes. Esta herramienta ofrece a investigadores y desarrolladores una solución técnica flexible y escalable, con el potencial de impulsar la innovación y el desarrollo en los campos de la visión multimodal y el aprendizaje por refuerzo.
WeChat-YATT aborda principalmente dos principales barreras técnicas en el proceso de entrenamiento distribuido de modelos grandes.
En primer lugar, el problema de la escabilidad en escenarios multimodales. A medida que el tamaño de los datos multimodales como imágenes y videos aumenta constantemente, el método tradicional de gestión de datos mediante un único controlador tiende a convertirse en un cuello de botella de comunicación y memoria, limitando así el rendimiento del sistema e incluso causando interrupciones en el proceso de entrenamiento. WeChat-YATT resuelve este problema mediante un mecanismo de gestión paralela introduciendo controladores paralelos (Parallel Controller), reduciendo efectivamente la presión del sistema y mejorando significativamente la escalabilidad y estabilidad del sistema, permitiéndole manejar mejor escenarios complejos de multimodalidad y grandes volúmenes de datos.
En segundo lugar, la brecha de eficiencia en la muestra dinámica y el cálculo de recompensas generativas. En flujos de trabajo de entrenamiento que requieren muestras dinámicas frecuentes o cálculos de recompensas generativas, los cambios frecuentes del modelo y las tareas de "cola larga" generan una gran cantidad de costos adicionales, impidiendo que se utilice plenamente la capacidad de cálculo de GPU y afectando gravemente la eficiencia general del entrenamiento. WeChat-YATT reduce eficazmente el costo de cambio del modelo y el impacto de las tareas de cola larga mediante estrategias de coexistencia parcial y mecanismos de interacción asincrónica, logrando así alta capacidad de procesamiento y alta utilización de recursos durante el proceso de entrenamiento, apoyando así de manera más eficiente la iteración de tareas RLHF a gran escala.
Para satisfacer las necesidades de diferentes escenarios empresariales, WeChat-YATT admite dos modos de colocación de recursos: coexistencia total y coexistencia parcial, maximizando así la utilización de los recursos del clúster.
El modo de coexistencia total utiliza un mecanismo de programación secuencial, donde Actor Rollouts, GenRM (modelo de recompensa generativa) y Train se ejecutan secuencialmente. Una vez que cada rol completa su tarea, libera activamente los recursos de cálculo y el sistema carga inmediatamente el siguiente modelo necesario. Esta estrategia es adecuada para la mayoría de los escenarios de entrenamiento convencionales. Destaca el hecho de que, en cada etapa, los componentes relacionados pueden utilizar exclusivamente todos los recursos de GPU, lo que reduce significativamente el tiempo de inactividad "burbuja" de los recursos y mejora notablemente el rendimiento general de la capacidad de procesamiento y la eficiencia del entrenamiento.
En el modo de coexistencia parcial, Actor Rollouts y GenRM se despliegan de forma independiente y se comunican de manera eficiente mediante métodos asincrónicos. Durante la fase de entrenamiento de Actor, se ocupan todos los recursos de GPU, y durante la fase de generación de Rollouts, se liberan los recursos de GPU y se activan los componentes Actor Rollouts y GenRM para trabajar juntos. El sistema asigna y equilibra los recursos dinámicamente. Una vez que se completan los Rollouts, estos dos componentes liberan los recursos, y Actor vuelve a cargarlos en la GPU para ingresar a la siguiente ronda de entrenamiento. Este modo de coexistencia parcial es especialmente adecuado para escenarios de tareas complejas donde Actor Rollouts y GenRM requieren interacciones frecuentes y muestreo dinámico.
WeChat-YATT también cuenta con varias características técnicas destacadas. En cuanto al uso de memoria, el proyecto utiliza una arquitectura de controlador paralelo, reduciendo eficazmente el consumo de memoria en un nodo, lo que lo hace más adecuado para el entrenamiento de modelos grandes en escenarios multimodales, mejorando así la escalabilidad y estabilidad del sistema. En cuanto al soporte de GenRM, se han implementado estrategias diferentes de colocación de recursos para escenarios de modelos de recompensa generativa, permitiendo a los usuarios elegir la solución de entrenamiento óptima según su escenario específico.
La estrategia inteligente de puntos de verificación es otra característica destacada. WeChat-YATT admite la guardado asincrónico de puntos de verificación y, según las características del escenario empresarial de WeChat, guarda automáticamente los puntos de verificación según el flujo de programación, garantizando así de manera adicional la seguridad del entrenamiento y la alta disponibilidad. Además, el sistema logra un equilibrio de carga entre los grupos de paralelismo de datos durante el entrenamiento, reduciendo eficazmente el tiempo de inactividad de los recursos y mejorando significativamente la capacidad de procesamiento general del entrenamiento.
La publicación de este marco de entrenamiento marca un importante avance en la construcción de infraestructura tecnológica de modelos grandes de Tencent, y también ofrece una solución efectiva para escenarios complejos de entrenamiento multimodal a la industria.