Le groupe de recherche d'entreprise d'intelligence artificielle DeepSeek a annoncé lundi la publication d'un nouveau modèle expérimental nommé V3.2-exp, conçu pour réduire significativement les coûts d'inférence lors des opérations sur des contextes longs grâce à une mécanique innovante appelée « attention sparse ». Cette avancée majeure a été publiée simultanément sur Hugging Face et GitHub, accompagnée d'un article académique détaillé.
Le cœur du modèle repose sur sa mécanique d'attention sparse DeepSeek. Ce système complexe se compose de deux parties : d'une part, un module appelé « indexeur rapide » qui priorise certaines extraits dans la fenêtre de contexte ; d'autre part, un système indépendant de sélection fine des balises qui choisit les balises clés parmi ces extraits prioritaires et les charge dans une fenêtre d'attention limitée. La combinaison de ces mécanismes permet au modèle d'attention sparse de traiter efficacement des fragments de contexte longs avec une charge serveur faible.
Dans les tests initiaux, le nouveau modèle a montré des avantages notables. DeepSeek rapporte que le coût d'appel d'API simple peut être réduit de moitié dans les opérations sur des contextes longs. Bien qu'il soit encore nécessaire de plus de tests tiers pour valider ces conclusions, la performance réelle du modèle sera rapidement vérifiée par l'industrie, car il est doté de poids ouverts et disponible gratuitement sur Hugging Face.
Cette percée de DeepSeek fait partie des innovations récentes visant à résoudre le problème des coûts d'inférence en intelligence artificielle. Les coûts d'inférence font référence aux frais liés à l'exécution d'un modèle d'IA entraîné sur des serveurs, et non aux coûts d'entraînement. Contrairement au modèle R1, qui se concentrait sur la réduction des coûts d'entraînement, ce nouveau modèle vise à améliorer l'efficacité de l'architecture de base Transformer, offrant ainsi une solution plus économique pour la diffusion des applications d'IA.