MiniMax-01 é um poderoso modelo de linguagem com 456 bilhões de parâmetros, com 45,9 bilhões de parâmetros ativados por token. Ele utiliza uma arquitetura híbrida, combinando atenção Flash, atenção softmax e Mixture-of-Experts (MoE), usando estratégias de paralelismo avançadas e métodos inovadores de sobreposição computação-comunicação, como LASP+ (Linear Attention Sequence Parallelism Plus), atenção cíclica varlen e paralelismo de tensores de especialistas (ETP), para expandir o comprimento do contexto de treinamento para 1 milhão de tokens e processar contextos de até 4 milhões de tokens na inferência. Em diversos benchmarks acadêmicos, o MiniMax-01 demonstrou desempenho de ponta.