SiliconCloud hat eine wesentliche Aktualisierung seiner Inferenzmodell-APIs, darunter DeepSeek-R1, vorgenommen, um die Bedürfnisse von Entwicklern hinsichtlich langer Kontexte und flexibler Parameterkonfiguration besser zu erfüllen. Bei dieser Aktualisierung wurde die maximale Kontextlänge für mehrere Inferenzmodelle auf 128K erhöht, was es den Modellen ermöglicht, umfassender nachzudenken und komplettere Inhalte auszugeben.

image.png

In dieser Aktualisierung unterstützen mehrere bekannte Modelle, wie Qwen3, QWQ und GLM-Z1, eine maximale Kontextlänge von 128K, während DeepSeek-R1 eine Länge von 96K unterstützt. Diese Verbesserung bietet starke Unterstützung für komplexe Inferenzaufgaben wie Codegenerierung und die Anwendung intelligenter Agenten.

Noch wichtiger ist, dass SiliconCloud unabhängige Steuerungsfunktionen für „Ketten des Denkens“ (thinking chain) und die „Antwortlänge“ eingeführt hat. Auf diese Weise können Entwickler die Inferenzfähigkeiten der Modelle effizienter nutzen. Die maximale Antwortlänge (max_tokens) wird nun nur zur Beschränkung des Endinhalts verwendet, den das Modell dem Benutzer zurückgibt, während die Länge der Denkkette (thinking_budget) speziell zum Steuern der Tokenverwendung im Denkprozess dient. Dieses Design ermöglicht es Entwicklern, je nach der Komplexität der tatsächlichen Aufgabe, die Denktiefe und die Ausgabelänge flexibel anzupassen.

Beispielhaft für das Qwen3-14B-Modell der SiliconCloud-Plattform kann der Benutzer durch die Einstellung von thinking_budget und max_tokens jeweils die maximale Denkkettenlänge und die maximale Antwortlänge steuern. Während des Inferenzprozesses wird bei Qwen3-Reihen-Inferenzmodellen der Denkkettenprozess gezwungen beendet, wenn die generierten Tokens die Thinking-Budget erreichen. Andere Inferenzmodelle könnten jedoch weiterhin den Denkinhalt ausgeben.

image.png

Ausserdem wird beim Erreichen der max_tokens-Limitierung oder bei Überschreitung der Kontextlängenbeschränkung die Antwort des Modells abgeschnitten und im Feld "finish_reason" des Antwortenfelds die Bezeichnung "length" angegeben, was die Abschneidung aufgrund der Limesrestriktionen signalisiert.

Um weitere Details zur API-Nutzung zu erfahren, können Benutzer die offizielle Dokumentation von SiliconCloud besuchen. Mit kontinuierlicher Innovation von SiliconCloud wird die Benutzererfahrung weiter verbessert, und weitere Funktionen werden sukzessive vorgestellt.

https://docs.siliconflow.cn/cn/userguide/capabilities/reasoning

Hier sind die Schwerpunkte:

🔹 Unterstützung einer maximalen Kontextlänge von 128K, um das Nachdenken und die Ausgabe zu verbessern.

🔹 Unabhängige Steuerung von Ketten des Denkens und der Antwortlänge, um Flexibilität für Entwickler zu erhöhen.

🔹 Wenn Limesgrenzen erreicht werden, wird die Ausgabe abgeschnitten und der Grund dafür angegeben.