Récemment, Xiaohongshu a annoncé l'ouverture de ses sources pour son premier grand modèle — dots.llm1, qui comporte 142 milliards de paramètres et est un modèle mixte d'experts (MoE). Une caractéristique notable de sa conception est qu'il active seulement 14 milliards de paramètres lors du processus d'inférence. Cette structure maintient non seulement des performances élevées, mais réduit également de manière significative les coûts d'entraînement et d'inférence.
Le dots.llm1 utilise 11,2 billions de données d'entraînement non synthétiques de haute qualité, ce qui est assez rare parmi les modèles open source actuels, indiquant ainsi les puissantes ressources de Xiaohongshu en traitement du langage. Le modèle obtient des scores moyens impressionnants de 91,3 lors des tests chinois, surpassant plusieurs concurrents tels que les versions V2 et V3 de DeepSeek, ainsi que les séries Qwen2.5 d'Alibaba.
En termes d'architecture technique, dots.llm1 adopte une structure de décodeur Transformer unidirectionnel et remplace les couches de réseau à propagation avant traditionnelles par un MoE. Contrairement aux modèles classiques, le MoE sépare plusieurs réseaux experts, chaque réseau expert se concentrant sur différentes caractéristiques des données d'entrée, permettant ainsi de n'activer qu'une petite partie des réseaux lors de l'inférence, ce qui réduit considérablement la demande en ressources de calcul.
Plus précisément, dots.llm1 contient 128 experts de routage et 2 experts partagés. Chaque expert est un réseau avec une structure de deux couches de propagation avant, utilisant une fonction d'activation SwiGLU pour capturer les relations complexes dans les données. Lors du traitement des marqueurs d'entrée, le modèle sélectionne dynamiquement 6 experts pertinents et 2 experts partagés pour les calculs.
De plus, lors du processus d'entraînement, dots.llm1 introduit une opération de normalisation RMSNorm améliorée pour stabiliser les performances et les sorties du modèle. Dans le module MoE, la stratégie d'équilibrage de charge assure une utilisation équilibrée de tous les réseaux experts, évitant ainsi une trop grande dépendance à certains experts.
Pour améliorer l'efficacité de l'entraînement, dots.llm1 utilise également l'optimiseur AdamW, qui prévient efficacement le surajustement du modèle et contrôle l'explosion des gradients.
Le traitement des données est essentiel à l'entraînement des grands modèles. Dots.llm1 passe par un pipeline de traitement des données strict en trois étapes, garantissant la haute qualité des données d'entraînement. Après une série de filtrages et traitements, il forme finalement 11,2 billions de tokens d'entraînement de haute qualité. De plus, Xiaohongshu ouvre également les points de contrôle d'entraînement intermédiaires tous les trillion tokens, favorisant ainsi davantage le développement de la recherche académique.
Adresse open source : https://huggingface.co/rednote-hilab/dots.llm1.base/tree/main
Points clés :
🌟 dots.llm1 est le premier grand modèle open source de Xiaohongshu, utilisant une structure mixte d'experts avec 142 milliards de paramètres.
📊 Le modèle utilise 11,2 billions de données non synthétiques, performant particulièrement bien en chinois.
🔍 Un pipeline rigoureux de traitement des données garantit l'efficacité et la fiabilité des données d'entraînement.