Marco FP8-LM de Microsoft

El marco FP8-LM de código abierto de Microsoft ha logrado resultados notables en el entrenamiento de modelos de lenguaje a gran escala. Este marco utiliza entrenamiento de precisión mixta FP8, siendo un 64% más rápido que BF16 al entrenar el modelo GPT-175B, y ahorrando un 42% de uso de memoria. El uso del marco FP8-LM facilita el aumento del tamaño de los modelos entrenables, representando un avance significativo en el campo del entrenamiento de modelos grandes.