MiniMax-01 es un potente modelo de lenguaje con 4560 mil millones de parámetros totales, donde cada token activa 45900 millones de parámetros. Emplea una arquitectura híbrida que combina atención Flash, atención softmax y mezcla de expertos (MoE), extendiendo la longitud del contexto de entrenamiento a 1 millón de tokens mediante estrategias de paralelismo avanzadas y métodos innovadores de superposición computación-comunicación, como LASP+ (Paralelismo de Secuencia de Atención Lineal+), atención cíclica varlen y paralelismo de tensor de expertos (ETP). En inferencia, puede procesar contextos de hasta 4 millones de tokens. En múltiples pruebas de referencia académicas, MiniMax-01 ha demostrado un rendimiento de primer nivel.