La société SiliconCloud (Flux en Silicium) a annoncé une mise à jour majeure de ses API de modèles d'inférence comme DeepSeek-R1, afin de répondre de manière plus efficace aux besoins des développeurs en matière de longueur de contexte et de configuration paramétrique flexible. Dans cette mise à jour, la longueur maximale du contexte de plusieurs modèles d'inférence a été portée à 128K, permettant ainsi aux modèles de réfléchir plus pleinement et de produire des contenus plus complets.

image.png

Pendant cette mise à jour, plusieurs modèles populaires, tels que Qwen3, QWQ et GLM-Z1, supportent désormais une longueur maximale de contexte de 128K, tandis que DeepSeek-R1 supporte une longueur de 96K. Cette amélioration offre un soutien puissant pour les tâches d'inférence complexes, comme la génération de code et l'utilisation d'agents intelligents.

De plus, SiliconCloud a introduit une fonctionnalité permettant de contrôler indépendamment la longueur de la chaîne de raisonnement (« thinking chain ») et la longueur du contenu de la réponse. Grâce à cela, les développeurs peuvent exploiter plus efficacement les capacités de raisonnement des modèles. La longueur maximale de la réponse (max_tokens) est maintenant utilisée uniquement pour limiter le contenu final que le modèle envoie à l'utilisateur, tandis que la longueur de la chaîne de raisonnement (thinking_budget) est spécifiquement conçue pour contrôler l'utilisation de tokens pendant la phase de réflexion. Ce design permet aux développeurs d'ajuster de manière flexible la profondeur de réflexion et la longueur de sortie du modèle en fonction de la complexité réelle de la tâche.

À titre d'exemple, sur la plateforme SiliconCloud, avec Qwen3-14B, les utilisateurs peuvent régler séparément thinking_budget et max_tokens pour contrôler respectivement la longueur maximale de la chaîne de raisonnement et la longueur maximale de la réponse. Pendant le processus d'inférence, si le nombre de tokens généré au cours de la phase de réflexion atteint thinking_budget, les modèles d'inférence de la série Qwen3 arrêteront automatiquement la chaîne de raisonnement. Pour d'autres modèles d'inférence, ils pourraient continuer à générer du contenu de réflexion.

image.png

De plus, si la longueur maximale de la réponse dépasse max_tokens ou que la longueur du contexte dépasse la limite de context_length, le contenu de la réponse du modèle sera tronqué et le champ finish_reason dans la réponse sera marqué comme length, indiquant que la sortie a été interrompue en raison d'une limitation de longueur.

Pour en savoir plus sur les détails d'utilisation de l'API, les utilisateurs peuvent consulter la documentation officielle de SiliconCloud. Avec les innovations continues de SiliconCloud, l'expérience utilisateur continuera d'améliorer et de nouvelles fonctionnalités seront progressivement ajoutées.

https://docs.siliconflow.cn/fr/guide/utilisateur/caractéristiques/raisonnement

Points clés :  

🔹 Prise en charge d'une longueur maximale de contexte de 128K, améliorant les capacités de réflexion et de production du modèle.  

🔹 Contrôle indépendant de la chaîne de raisonnement et de la longueur de la réponse, augmentant la flexibilité des développeurs.  

🔹 Si une limite de longueur est atteinte, la sortie du modèle sera tronquée et la raison sera signalée.