シリコンクラウド(SiliconCloud)は、その DeepSeek-R1を含む推論モデルAPIについて重要なアップデートを行いました。このアップデートでは、開発者が長期間の文脈と柔軟なパラメータ設定に対応できるようにすることが目的です。今回のアップデートでは、複数の推論モデルの最大文脈長が128Kに拡張され、モデルがより十分に思考し、出力内容もさらに完成度が高くなりました。
今回のアップデートでは、Qwen3やQWQ、GLM-Z1などの有名なモデルが最大文脈長128Kをサポートしており、DeepSeek-R1は96Kをサポートしています。この改善により、コード生成やエージェントアプリケーションなど複雑な推論タスクに強力な支援を提供します。
さらに重要なのは、シリコンクラウドが「思考チェーン」(思考過程)と「応答内容」の長さを個別に制御できる機能を導入したことです。この方法により、開発者はモデルの推論能力をより効果的に活用できます。最大応答長(max_tokens)は現在、ユーザーに提供される最終的な出力を制限するために使用され、思考予算(thinking_budget)はモデルの思考プロセス中のトークン使用量を専門的に制御します。このような設計により、開発者は実際のタスクの複雑さに応じて、モデルの思考深さと出力長を柔軟に調整することができます。
例えば、シリコンクラウドプラットフォームのQwen3-14Bを使用する場合、ユーザーはthinking_budgetとmax_tokensを設定することで、それぞれモデルの最大思考チェーン長と最大応答長を制御できます。推論の過程で、思考段階で生成されたトークン数がthinking_budgetに達すると、Qwen3シリーズの推論モデルは思考チェーン推論を強制終了します。他の推論モデルの場合には、考え中の内容を続ける可能性があります。
また、最大応答長がmax_tokensを超えるか、文脈長がcontext_lengthの制限を超えてしまう場合、モデルの応答内容は切断され、応答内のfinish_reasonフィールドにはlengthが記載され、長さ制限による出力終了であることが示されます。
APIの詳細については、シリコンクラウドの公式ドキュメントをご覧ください。シリコンクラウドの継続的な革新により、ユーザー体験はさらに向上し、多くの新機能が順次リリースされます。
https://docs.siliconflow.cn/ja/userguide/capabilities/reasoning
ポイント:
🔹 最大128Kの文脈長をサポートし、モデルの思考力と出力能力を向上させます。
🔹 思考チェーンと応答内容の長さを個別に制御でき、開発者の柔軟性を向上させます。
🔹 長さ制限に達すると、モデルの出力が切断され、その理由が明示されます。