Aujourd'hui, lors de la conférence Create2025 AI Developers organisée à Wuhan par Baidu, le fondateur Robin Li a prononcé un discours d'environ 60 minutes sur le thème « Le monde des modèles, le règne des applications », lançant officiellement les versions 4.5 Turbo et X1 Turbo du modèle linguistique Ernie, et dévoilant les progrès et les défis actuels de l'implémentation du modèle DeepSeek au sein de l'écosystème Baidu.

Robin Li a révélé que les produits phares de Baidu, tels que Wenxinyan, la recherche Baidu et Baidu Maps, ont intégré le modèle DeepSeek complet, améliorant ainsi l'efficacité dans des domaines tels que le service client intelligent et l'amélioration de la recherche. Cependant, il a également admis que DeepSeek présentait encore des limites techniques : « Ce modèle ne prend en charge que le traitement de texte et ne peut pas générer de contenu multimédia (images, audio, vidéo), alors que plus de 60 % des clients de Baidu Cloud ont un besoin explicite de capacités multimodales. » Il a pris l'exemple du e-commerce en direct pour souligner que le taux d'hallucinations (c'est-à-dire la génération d'informations erronées) de DeepSeek était trop élevé pour une application directe dans des domaines à haut risque tels que la finance et la santé. « Une promotion erronée de type « achetez-en un, obtenez-en dix » en direct entraînerait des pertes incontrôlables pour le commerçant. » De plus, sa lenteur et son coût d'appel élevé limitent son déploiement à grande échelle — la plupart des API de grands modèles sur le marché chinois ont un coût d'appel inférieur et une vitesse de réponse supérieure à la version complète de DeepSeek.

L'algorithme du grand modèle linguistique DeepSeek est une recherche approfondie de l'IA

Pour remédier à ces problèmes, les deux versions du modèle linguistique Ernie lancées par Baidu proposent trois axes d'amélioration : multimédia, raisonnement puissant et faible coût. Robin Li a souligné que le multimédia était devenu le « passeport » des modèles d'IA de nouvelle génération : « La part de marché des modèles purement textuels va diminuer rapidement, les entreprises ayant besoin de modèles universels capables de traiter simultanément du texte, des images et des vidéos. » En termes de performances, le prix d'entrée du modèle Ernie 4.5 Turbo est réduit à 0,8 yuan par million de jetons, et le prix de sortie à 3,2 yuan, soit une vitesse d'inférence deux fois plus rapide et une réduction des coûts de 80 % par rapport à la version précédente ; le prix d'entrée du modèle X1 Turbo est de 1 yuan et le prix de sortie de 4 yuan, avec une réduction de prix supplémentaire de 50 % tout en améliorant les performances, et il prend en charge le bilinguisme chinois-anglais et l'optimisation de l'inférence dans des domaines verticaux tels que le droit et la médecine.

« Le coût est le principal frein au développement des applications d'IA. » a déclaré Robin Li, ajoutant que le principal obstacle à la création d'applications d'IA par les développeurs était le coût élevé de la puissance de calcul, et que l'essence de l'innovation technologique résidait souvent dans la rupture des structures de coûts. Il a pris l'exemple de la conduite autonome : en 2015, le prix d'un lidar était supérieur à 100 000 dollars, il est aujourd'hui inférieur à 1 000 dollars, ce qui a directement favorisé la généralisation de la technologie de niveau 4. La baisse de prix du modèle linguistique Ernie vise à réduire le seuil de déploiement des entreprises, « à permettre aux PME d'utiliser les grands modèles, aux entrepreneurs d'oser prendre des risques et, finalement, à stimuler le développement d'applications natives de l'IA dans tous les secteurs ».

Selon l'équipe technique de Baidu, les modèles Ernie 4.5 Turbo et X1 Turbo sont disponibles simultanément sur le cloud public et en déploiement privé, et prennent en charge l'appel à la demande et l'entraînement personnalisé. Les analyses du marché estiment que Baidu, grâce à l'itération technologique et à la restructuration des coûts, tente de trouver un équilibre entre les capacités du modèle et son application commerciale, et que les capacités multimodales et l'avantage prix pourraient devenir ses atouts clés pour attirer les clients professionnels.