DeepSeek hat einen offiziellen Account auf Zhihu eröffnet und den technischen Artikel „DeepSeek-V3/R1 Inferenzsystemübersicht“ veröffentlicht. Dieser Artikel enthüllt erstmals detailliert die Optimierungsdetails und die Kosten-Gewinn-Marge seines Modell-Inferenzsystems und markiert das offizielle Ende der mit Spannung erwarteten „DeepSeek Open Source Week“.
Der Artikel beschreibt die beiden Hauptziele der Optimierung des DeepSeek-V3/R1-Inferenzsystems: „Höherer Durchsatz, niedrigere Latenz“. Um diese Ziele zu erreichen, verwendet DeepSeek die groß angelegte, knotenübergreifende Expertenparallelität (EP)-Technologie, obwohl dies die Systemkomplexität erhöht. Der Artikel konzentriert sich auf die Erläuterung, wie die EP-Technologie verwendet wird, um die Batchgröße zu erhöhen, die Übertragungszeit zu verkürzen und die Lastausgleichung zu erreichen.
Besonders bemerkenswert ist, dass DeepSeek seine Kosten- und Gewinnmargendaten ungewöhnlicherweise offenlegt. Der Artikel enthüllt: „Angenommen, die GPU-Mietkosten betragen 2 US-Dollar/Stunde, betragen die Gesamtkosten 87.072 US-Dollar/Tag. Wenn alle Tokens zum Preis von DeepSeek R1 berechnet werden, beträgt der theoretische Gesamtumsatz pro Tag 562.027 US-Dollar, die Kosten-Gewinn-Marge 545 %.“