Récemment, l'équipe de recherche de Microsoft a officiellement publié un grand modèle linguistique open source appelé BitNet b1.582B4T. Ce modèle, doté de 2 milliards de paramètres, a été entraîné nativement avec une architecture unique de faible précision à 1,58 bit. Comparé aux méthodes de quantification post-entraînement traditionnelles, BitNet réduit considérablement les besoins en ressources de calcul. Selon Microsoft, son occupation mémoire non embarquée est seulement de 0,4 Go, bien inférieure à celle d'autres produits similaires sur le marché, tels que Gemma-31B (1,4 Go) et MiniCPM2B (4,8 Go).
Les performances efficaces de BitNet proviennent de sa conception architecturale innovante. Le modèle abandonne les valeurs numériques traditionnelles à 16 bits au profit d'une couche BitLinear personnalisée, limitant les poids à trois états : -1, 0 et +1, formant ainsi un système ternaire. Cela permet de stocker chaque poids avec seulement environ 1,58 bit d'information. De plus, les valeurs d'activation entre les couches sont quantifiées en utilisant des entiers 8 bits, résultant en une configuration W1.58A8. Microsoft a également ajusté l'architecture Transformer en introduisant une fonction d'activation ReLU quadratique, un encodage de position rotatif standard (RoPE) et une normalisation subln pour assurer la stabilité de l'entraînement à faible bit.
Le développement de BitNet s'est déroulé en trois phases : un pré-entraînement sur 4 000 milliards de jetons de données web, de code et d'ensembles de données mathématiques synthétiques ; un ajustement fin supervisé sur des ensembles de données d'instructions publiques et synthétiques ; et enfin, l'utilisation de l'optimisation de préférence directe (DPO) avec des ensembles de données comme UltraFeedback pour améliorer les capacités conversationnelles et la sécurité du modèle.
Les résultats des tests de Microsoft montrent que BitNet offre des performances exceptionnelles sur des tests de référence tels que GSM8K (mathématiques) et PIQA (connaissance physique), atteignant des performances globales comparables à celles des modèles de précision entière à 1 à 2 milliards de paramètres. Il présente également des avantages significatifs en termes de consommation d'énergie (0,028 joule par jeton) et de latence de décodage CPU (29 ms).
Bien que BitNet présente un potentiel énorme, son efficacité dépend du framework C++ propriétaire bitnet.cpp fourni par Microsoft. Des outils courants comme la bibliothèque Hugging Face Transformers ne peuvent pas pleinement refléter ses avantages en termes de vitesse et de consommation d'énergie. Microsoft prévoit d'optimiser la prise en charge des GPU et des NPU, d'étendre la fenêtre contextuelle à 4096 jetons et d'explorer des modèles de plus grande envergure et des fonctionnalités multilingues. Désormais, BitNet b1.582B4T est disponible sous licence MIT sur la plateforme Hugging Face, à disposition des développeurs et des chercheurs pour les tests et les applications.
Article : https://arxiv.org/html/2504.12285v1
Hugging Face : https://huggingface.co/microsoft/bitnet-b1.58-2B-4T
Points clés :
🌟 Le modèle possède 2 milliards de paramètres et une occupation mémoire de seulement 0,4 Go, nettement inférieure à celle des produits concurrents.
🔧 Il utilise une architecture innovante, abandonnant les valeurs numériques traditionnelles à 16 bits au profit d'un stockage des poids à faible précision à 1,58 bit.
🚀 Il est disponible sur Hugging Face, et Microsoft prévoit d'améliorer encore les fonctionnalités et les performances du modèle.