El marco FP8-LM de código abierto de Microsoft ha logrado resultados notables en el entrenamiento de modelos de lenguaje a gran escala. Este marco utiliza entrenamiento de precisión mixta FP8, siendo un 64% más rápido que BF16 al entrenar el modelo GPT-175B, y ahorrando un 42% de uso de memoria. El uso del marco FP8-LM facilita el aumento del tamaño de los modelos entrenables, representando un avance significativo en el campo del entrenamiento de modelos grandes.
Microsoft lanza el framework FP8-LM de código abierto: entrenamiento de modelos grandes 64% más rápido y 42% menos memoria

机器之心
Este artículo proviene de AIbase Daily
¡Bienvenido a la columna [AI Diario]! Aquí está tu guía diaria para explorar el mundo de la inteligencia artificial. Todos los días te presentamos el contenido más destacado en el campo de la IA, centrándonos en los desarrolladores para ayudarte a comprender las tendencias tecnológicas y conocer las aplicaciones innovadoras de productos de IA.