En janvier de cette année, l'annonce du modèle R1 par DeepSeek n'était pas seulement une simple nouvelle sur l'intelligence artificielle, mais a été qualifiée comme un « point de rupture » dans l'industrie technologique, bouleversant toute l'industrie technologique et obligeant les leaders de l'industrie à réévaluer fondamentalement leurs méthodes de développement d'IA. Les exploits exceptionnels de DeepSeek ne proviennent pas de fonctionnalités innovantes, mais plutôt de sa capacité à réaliser des résultats comparables à ceux des géants technologiques avec un coût extrêmement bas. Cela marque une avancée rapide de l'IA sur deux voies parallèles : « l'efficacité » et « le calcul ».
Innovation sous contraintes : haute performance à faible coût
L'émergence remarquable de DeepSeek a attiré l'attention. Elle montre que même en situation de grandes restrictions, l'innovation peut prospérer. Face aux restrictions américaines sur les exportations de puces d'IA de pointe, DeepSeek a dû chercher d'autres moyens pour faire progresser l'IA. Alors que les entreprises américaines cherchaient à améliorer les performances grâce à des équipements plus puissants, des modèles plus grands et des données de meilleure qualité, DeepSeek s'est concentrée sur l'optimisation des ressources existantes, traduisant les idées connues en actions avec une exécution exceptionnelle. Cela constitue lui-même une forme d'innovation.
Cette philosophie axée sur l'efficacité a produit des résultats impressionnants. Selon les rapports, le modèle R1 de DeepSeek rivalise avec OpenAI en termes de performances, mais à un coût d'exploitation qui n'est que de 5 % à 10 % de celui d'OpenAI. Ce qui est encore plus choquant, c'est que le coût final de formation du prédécesseur V3 de DeepSeek était de seulement 6 millions de dollars, comparé aux investissements de plusieurs dizaines de millions ou même de plusieurs centaines de millions de dollars des concurrents américains. Cette somme a été décrite par Andrej Karpathy, ancien scientifique de l'IA chez Tesla, comme « une plaisanterie ». On rapporte qu'OpenAI a dépensé 500 millions de dollars pour former son dernier modèle "Orion", tandis que DeepSeek a atteint des résultats exceptionnels dans les tests benchmark avec un investissement de seulement 5,6 millions de dollars, soit moins de 1,2 % de ce que dépense OpenAI.
Il convient de noter que les résultats obtenus par DeepSeek ne sont pas entièrement dus à un désavantage en termes de puces. Les premières restrictions américaines visaient principalement la puissance de calcul, et non la mémoire et le réseau - éléments clés pour le développement de l'IA. Cela signifie que les puces utilisées par DeepSeek possèdent de bonnes capacités de réseau et de mémoire, leur permettant d'exécuter des opérations en parallèle entre plusieurs unités, une stratégie clé pour faire fonctionner efficacement des modèles de grande taille. De plus, la forte poussée chinoise dans l'infrastructure verticale de l'intelligence artificielle a accéléré cette innovation.
Stratégie pragmatique des données : données synthétiques et optimisation des architectures modulaires
Outre l'optimisation matérielle, la méthode de formation des données de DeepSeek est également unique. Selon les rapports, DeepSeek ne dépend pas uniquement des contenus extraits du web, mais utilise également une grande quantité de données synthétiques et des sorties de modèles propriétaires, ce qui illustre un exemple classique de distillation de modèle. Bien que cette approche puisse susciter des inquiétudes sur la confidentialité des données et la gouvernance auprès des clients d'entreprises occidentales, elle reflète le souci de DeepSeek de se concentrer sur les résultats plutôt que sur les processus.
L'utilisation efficace des données synthétiques est un facteur de différenciation clé pour DeepSeek. Les modèles basés sur Transformer et utilisant des architectures mixtes d'experts (MoE) sont plus robustes lors de l'intégration de données synthétiques, alors que les modèles d'architecture dense peuvent subir une chute de performances, voire une « panne de modèle », si elles utilisent trop de données synthétiques. L'équipe d'ingénierie de DeepSeek a spécifiquement conçu l'architecture du modèle dès la phase initiale, en prenant en compte l'intégration des données synthétiques, afin de tirer pleinement parti de l'avantage économique des données synthétiques sans sacrifier les performances.
Réponse du marché : redessiner la carte de l'industrie IA
L'émergence de DeepSeek a provoqué des changements stratégiques substantiels chez les leaders de l'industrie. Par exemple, Sam Altman, PDG d'OpenAI, a récemment annoncé des plans de publication du premier modèle de poids ouvert de l'entreprise depuis 2019. Le succès de DeepSeek et de Llama semble avoir eu un impact énorme sur OpenAI. Un mois après le lancement de DeepSeek, Altman a admis qu'OpenAI était « du mauvais côté de l'histoire » en matière de modèles open source.
Faisant face à des coûts annuels de fonctionnement allant de 700 millions à 800 millions de dollars, la pression économique causée par des solutions efficaces comme DeepSeek ne peut plus être ignorée. Comme l'a dit l'universitaire en intelligence artificielle Li Kaifu, les modèles open source gratuits des concurrents obligent OpenAI à se réformer. Malgré un financement colossal de 40 milliards de dollars, la valorisation d'OpenAI atteignant 3000 milliards de dollars, le défi fondamental de sa méthode qui nécessite davantage de ressources que DeepSeek reste intact.
Outre l'entraînement des modèles : vers le calcul au moment du test et l'évaluation autonome
DeepSeek a également accéléré la transition vers le calcul au moment du test (TTC). Avec l'exploitation maximale des données publiques presque saturée, la rareté des données ralentit les améliorations futures de la préformation. Pour résoudre ce problème, DeepSeek a annoncé un partenariat avec Tsinghua University pour mettre en œuvre l'auto-ajustement avec principe de critique (SPCT), c'est-à-dire que les modèles d'IA développent leurs propres règles d'évaluation et fournissent des commentaires détaillés, y compris un « juge » intégré pour évaluer en temps réel les réponses de l'IA.
Cette avancée fait partie d'un mouvement plus large d'autonomisation et d'amélioration des systèmes d'IA. Les modèles utilisent le temps de déduction pour améliorer les résultats, plutôt que simplement augmenter la taille du modèle. DeepSeek appelle son système « DeepSeek-GRM » (Modèle Généralisé de Récompense). Cependant, cette approche comporte des risques : si l'IA établit ses propres normes d'évaluation, cela pourrait s'éloigner des valeurs humaines, de l'éthique et des morales, renforcer des hypothèses ou des illusions erronées, suscitant des inquiétudes profondes concernant le jugement autonome de l'IA. Malgré tout, DeepSeek a, une fois de plus, créé peut-être la première application stack complète commerciale du SPCT. Cela pourrait marquer une transformation majeure de l'autonomie de l'IA, bien que cela nécessite toujours des audits rigoureux, une transparence et des mesures de protection.
Projet pour l'avenir : adaptation et changement
En résumé, l'émergence de DeepSeek préfigure que l'industrie de l'intelligence artificielle adoptera des pistes d'innovation parallèles. Tandis que les grandes entreprises continuent de construire des clusters de calcul plus puissants, elles se concentreront également sur l'amélioration de l'efficacité via l'ingénierie logicielle et l'optimisation des architectures modulaires pour répondre aux défis liés à la consommation énergétique de l'IA. Microsoft a suspendu la construction de centres de données dans plusieurs régions mondiales et s'est tournée vers une infrastructure plus distribuée et efficace, en réaffectant les ressources pour répondre à l'amélioration de l'efficacité apportée par DeepSeek. Meta a également publié la série de modèles Llama4 utilisant pour la première fois une architecture MoE, et a procédé à des tests de benchmark avec les modèles de DeepSeek, ce qui marque que les modèles d'IA chinois sont devenus des références pour les entreprises de la Silicon Valley.
Ironiquement, les sanctions américaines, conçues pour maintenir la domination de l'IA américaine, ont accéléré l'innovation qu'elles tentaient d'étouffer. À l'avenir, avec le développement continu de l'industrie à l'échelle mondiale, la capacité d'adaptation de tous les acteurs deviendra cruciale. Les politiques, les ressources humaines et les réactions du marché continueront de changer les règles de base, et il vaut la peine de suivre de près comment nous apprenons les uns des autres et comment nous répondons à ces transformations.