Heute stellte Baidus Gründer Robin Li auf der Create 2025 AI Entwicklerkonferenz in Wuhan in einer fast einstündigen Rede mit dem Thema „Die Welt der Modelle, das Reich der Anwendungen“ die neuen Versionen des Wenxin-Sprachmodells 4.5 Turbo und X1 Turbo vor und präsentierte die Fortschritte und Herausforderungen der Implementierung des DeepSeek-Modells im Baidu-Ökosystem.

Li enthüllte, dass Kernprodukte von Baidu wie Wenxiaoyan, die Baidu-Suche und Baidu Maps bereits die Vollversion des DeepSeek-Modells integriert haben und in Bereichen wie intelligentem Kundenservice und Suchverbesserungen Effizienzsteigerungen erzielt haben. Er räumte jedoch gleichzeitig technische Einschränkungen von DeepSeek ein: „Das Modell unterstützt nur die Textverarbeitung und kann keine multimodalen Inhalte wie Bilder, Audio und Video generieren. Über 60 % der Unternehmenskunden von Baidu Smart Cloud haben jedoch einen expliziten Bedarf an multimodalen Fähigkeiten.“ Am Beispiel von E-Commerce-Livestreams zeigte er auf, dass DeepSeek aufgrund einer hohen Halluzinationsrate (d. h. der Generierung falscher Informationen) in risikoreichen Bereichen wie Finanzen und Medizin nicht direkt eingesetzt werden kann. „Würde im Livestream fälschlicherweise ein ‚Kauf eins, erhalte zehn‘-Angebot beworben, würden die Händler unkontrollierbare Verluste erleiden.“ Darüber hinaus schränken die langsamere Reaktionsgeschwindigkeit und die höheren Aufrufkosten die Skalierung ein – derzeit sind die Aufrufkosten der meisten großen Sprachmodelle auf dem chinesischen Markt niedriger als die der Vollversion von DeepSeek, und die Reaktionsgeschwindigkeit ist schneller.

DeepSeek Large Language Model Algorithmus: Tiefgreifende Suche nach KI-Künstlicher Intelligenz

Um diese Schwachstellen zu beheben, bieten die beiden neuen Versionen des Wenxin-Sprachmodells drei wichtige Verbesserungen: Multimodalität, starke Inferenz und niedrige Kosten. Li betonte, dass Multimodalität zur „Eintrittskarte“ für die nächste Generation von KI-Modellen geworden sei. „Der Marktanteil von rein textbasierten Modellen wird schrumpfen, Unternehmen benötigen universelle Modelle, die gleichzeitig Text, Bilder und Audio-/Videodaten verarbeiten können.“ In Bezug auf die Leistung wurde der Preis für Wenxin 4.5 Turbo auf 0,8 Yuan pro Million Tokens für die Eingabe und 3,2 Yuan für die Ausgabe gesenkt. Die Inferenzgeschwindigkeit wurde im Vergleich zur Vorgängerversion verdoppelt, die Kosten um 80 % reduziert. Die Eingabe für die X1 Turbo-Version kostet 1 Yuan, die Ausgabe 4 Yuan. Bei verbesserter Leistung wurden die Preise um weitere 50 % gesenkt, und das Modell unterstützt die Inferenzoptimierung für verschiedene Bereiche wie Chinesisch und Englisch, Recht und Medizin.

„Die Kosten sind der wichtigste Hemmschuh für den Durchbruch von KI-Anwendungen.“ Li erklärte, dass die hohen Rechenkosten derzeit die größte Hürde für Entwickler beim Aufbau von KI-Anwendungen darstellen, und dass das Wesen technischer Innovation oft in einem Durchbruch der Kostenstruktur liegt. Am Beispiel des autonomen Fahrens zeigte er auf, dass der Preis für Lidar-Sensoren im Jahr 2015 über 100.000 US-Dollar lag, heute aber nur noch im dreistelligen Bereich liegt, was die Verbreitung der L4-Technologie direkt vorangetrieben hat. Die Preissenkung des Wenxin-Sprachmodells zielt darauf ab, die Einstiegshürden für Unternehmen zu senken, „damit kleine und mittlere Unternehmen große Sprachmodelle nutzen können, Unternehmer mutig Fehler machen können und letztendlich KI-native Anwendungen in allen Branchen entstehen.“

Laut Baidus Technikteam sind Wenxin 4.5 Turbo und X1 Turbo sowohl in der Public Cloud als auch für die private Bereitstellung verfügbar und unterstützen bedarfsgesteuerte Aufrufe und maßgeschneidertes Training. Marktanalysten sind der Meinung, dass Baidu durch technische Iterationen und Kostenoptimierung versucht, ein Gleichgewicht zwischen Modellfähigkeiten und kommerzieller Umsetzung zu finden, wobei Multimodalität und Preisvorteile zu entscheidenden Faktoren bei der Gewinnung von Unternehmenskunden werden könnten.