Anuncia Silicon Cloud (SiliconFlow) una importante actualización de sus APIs de modelos de inferencia DeepSeek-R1, diseñada para satisfacer mejor las necesidades de los desarrolladores en términos de contexto largo y configuración flexible de parámetros. En esta actualización, el tamaño máximo del contexto de varios modelos de inferencia se ha aumentado hasta 128K, lo que permite que los modelos piensen de manera más completa y generen contenido más completo.

image.png

Durante esta actualización, varios modelos populares como Qwen3, QWQ y GLM-Z1 admiten un tamaño máximo de contexto de 128K, mientras que DeepSeek-R1 soporta 96K. Esta mejora proporciona un fuerte apoyo para tareas de inferencia complejas, como la generación de código y la aplicación de agentes inteligentes.

Más importante aún, Silicon Cloud también ha introducido la funcionalidad de controlar independientemente la longitud de la "cadena de razonamiento" y el contenido de la respuesta. De esta manera, los desarrolladores pueden aprovechar de manera más eficiente la capacidad de inferencia del modelo. Ahora, el valor máximo de tokens finales (max_tokens) solo se utiliza para limitar el contenido final que el modelo envía al usuario, mientras que la longitud de la cadena de razonamiento (thinking_budget) se utiliza específicamente para controlar la cantidad de tokens utilizados durante la fase de razonamiento. Este diseño permite a los desarrolladores ajustar flexiblemente la profundidad del razonamiento y la longitud de la salida según la complejidad real de la tarea.

Por ejemplo, en la plataforma Silicon Cloud, el modelo Qwen3-14B permite a los usuarios controlar la longitud máxima de la cadena de razonamiento y la longitud máxima de la respuesta ajustando thinking_budget y max_tokens respectivamente. Durante el proceso de inferencia, si el número de tokens generados en la fase de razonamiento alcanza el valor de thinking_budget, los modelos de inferencia de Qwen3 forzarán la interrupción del razonamiento. Para otros modelos de inferencia, es posible que continúen generando contenido de pensamiento.

image.png

Además, si la longitud máxima de la respuesta supera el límite de max_tokens o el contexto excede el límite de context_length, el contenido de la respuesta generada por el modelo será truncado, y el campo finish_reason en la respuesta estará marcado como length, indicando que la salida se detuvo debido a restricciones de longitud.

Para obtener más detalles sobre el uso de la API, los usuarios pueden visitar la documentación oficial de Silicon Cloud. Con la continua innovación de Silicon Cloud, la experiencia del usuario seguirá mejorando y se lanzarán nuevas funciones.

https://docs.siliconflow.cn/es/guia-de-usuario/capacidades/inferencia

Lo importante:

🔹 Soporte para un tamaño máximo de contexto de 128K, mejorando la capacidad de pensamiento y generación del modelo.  

🔹 Control independiente de la longitud de la cadena de razonamiento y la respuesta, aumentando la flexibilidad para los desarrolladores.  

🔹 Si se alcanza el límite de longitud, la salida del modelo será truncada y se marcará la causa.