Récemment, Yuchen Jin, co-fondateur et directeur de la technologie (CTO) de Hyperbolic, a partagé sur la plateforme sociale X une histoire étonnante : le chercheur Keller Jordan a réussi à rejoindre OpenAI uniquement grâce à un article de blog, et il est très probablement en train d’utiliser l’optimiseur neuronal Muon mentionné dans cet article pour entraîner la prochaine version de GPT-5.

L'article de blog de Keller Jordan, intitulé « Muon : un optimiseur pour les couches cachées des réseaux neuronaux », a été publié en décembre 2024 et a rapidement attiré l'attention du secteur. Dans ce texte, il détaille les concepts et les résultats obtenus avec Muon, mettant en avant son immense potentiel pour accélérer l’entraînement. Grâce à ses expériences, Jordan a démontré que l’utilisation de Muon permet de réduire le temps d’entraînement de la tâche CIFAR-10 à seulement 79 % du temps initial, tout en améliorant significativement la vitesse d’exécution dans NanoGPT.

image.png

Le cœur de Muon réside dans sa conception unique : il optimise les paramètres des couches cachées des réseaux neuronaux en utilisant la méthode d’itération de Newton-Schulz, qui se révèle extrêmement performante en pratique. Jordan souligne également que Muon reste efficace lorsqu'il s'agit d'entraîner des modèles de grande taille sur des GPU modernes, avec un coût d'exécution inférieur à 1 %. Il analyse également en profondeur les paramètres et les effets de l’optimisation, proposant de nombreuses idées précieuses.

Dans son article, Jordan critique également certains problèmes du domaine actuel de la recherche sur les optimiseurs, estimant que de nombreux nouveaux algorithmes ne surpassent pas les standards existants comme AdamW en pratique. Il appelle la communauté à se concentrer sur l'ajustement des seuils de base et à mettre l'accent sur l'efficacité réelle des algorithmes d’optimisation.

Cet optimiseur novateur n’a pas seulement permis à Keller Jordan d’intégrer OpenAI, mais pourrait aussi devenir une composante clé de GPT-5. Avec le développement continu de la technologie IA, l’apparition de Muon marque une étape importante vers l’amélioration de l’efficacité de l’entraînement des réseaux neuronaux, et pourrait inspirer bien d'autres avancées technologiques futures.