Recientemente, Yuchen Jin, cofundador y CTO de Hyperbolic, reveló en la plataforma X una historia notable: el investigador Keller Jordan se unió a OpenAI solo a partir de un artículo de blog y es muy probable que esté utilizando el optimizador de redes neuronales mencionado en el blog, llamado Muon, para entrenar la última versión de GPT-5.
El blog de Keller Jordan, titulado «Muon: Optimizador para capas ocultas de redes neuronales», fue publicado en diciembre de 2024 y rápidamente captó la atención de la industria. En este artículo, detalló los principios de diseño y los resultados prácticos de Muon, destacando su enorme potencial para aumentar la velocidad de entrenamiento. Jordan demostró mediante experimentos que el uso de Muon redujo el tiempo de entrenamiento para la tarea CIFAR-10 al 79% del original, y también mejoró significativamente la velocidad de ejecución en NanoGPT.
El núcleo de Muon radica en su diseño único: utiliza el método de iteración Newton-Schulz para optimizar los parámetros de las capas ocultas de las redes neuronales, lo que muestra un rendimiento excelente en la práctica. Además, Jordan señaló que Muon mantiene una alta eficiencia durante el entrenamiento a gran escala con GPUs modernas, con un costo de operación inferior al 1%. También realizó un análisis profundo sobre la configuración de parámetros y los efectos durante el proceso de optimización, ofreciendo muchas ideas valiosas.
En el blog, Jordan también criticó algunos problemas actuales en el campo de la investigación de optimizadores, argumentando que muchos optimizadores recientemente propuestos no han logrado superar efectivamente los estándares existentes, como AdamW, en aplicaciones prácticas. Exhortó a la comunidad de investigación a prestar más atención a la calibración de los valores base, destacando la importancia del impacto real de los algoritmos de optimización.
Este innovador optimizador no solo permitió que Keller Jordan ingresara en OpenAI, sino que también podría convertirse en una parte importante de GPT-5. Con el continuo desarrollo de la tecnología de IA, la aparición de Muon marca un paso importante hacia la mejora de la eficiencia del entrenamiento de redes neuronales y podría liderar futuras transformaciones tecnológicas.