MiniMax-Text-01 ist ein von MiniMaxAI entwickeltes großes Sprachmodell mit 456 Milliarden Parametern, wobei jeder Token 45,9 Milliarden Parameter aktiviert. Es verwendet eine hybride Architektur, die Blitz-Aufmerksamkeit, Softmax-Aufmerksamkeit und Mixture of Experts (MoE) kombiniert. Durch fortschrittliche Parallelisierungsstrategien und innovative Computing-Kommunikations-Überlappungsmethoden wie Linear Attention Sequence Parallelism Plus (LASP+), variable Ring-Aufmerksamkeit und Expert Tensor Parallelism (ETP) wurde die Länge des Trainingskontexts auf 1 Million Token erweitert, und es kann im Inferenzmodus Kontexte mit bis zu 4 Millionen Token verarbeiten. In mehreren akademischen Benchmark-Tests hat MiniMax-Text-01 die Leistung eines Top-Modells gezeigt.