Google ha lanzado recientemente Gemini 2.5 Flash, la última incorporación a su familia Gemini. Esta versión, actualmente en fase de vista previa, está diseñada para ofrecer a los desarrolladores una capacidad de razonamiento aún más potente. Gracias a su proceso de "pensamiento", los desarrolladores pueden controlar de forma flexible los costes y la latencia según sus necesidades, creando soluciones más rentables.
En comparación con la versión anterior, 2.0 Flash, la principal mejora de Gemini 2.5 Flash radica en su capacidad de razonamiento. Se trata del primer modelo de inferencia completamente híbrido de Google, que permite a los desarrolladores elegir si activan o no la función de pensamiento. Al establecer un presupuesto de pensamiento, los desarrolladores pueden encontrar el equilibrio ideal entre calidad, coste y latencia. Incluso con la función de pensamiento desactivada, 2.5 Flash mantiene la rápida velocidad de respuesta de 2.0 Flash y mejora aún más su rendimiento general.
Este nuevo modelo de pensamiento puede realizar una serie de procesos de razonamiento antes de generar la salida. Este proceso ayuda al modelo a comprender mejor las indicaciones de entrada, a descomponer tareas complejas y a planificar respuestas más precisas. Por ejemplo, al tratar tareas complejas que requieren razonamiento en varios pasos (como resolver problemas matemáticos o analizar problemas de investigación), el proceso de pensamiento permite al modelo obtener respuestas más precisas y completas. En la prueba de "indicaciones difíciles" de LMArena, Gemini 2.5 Flash obtuvo excelentes resultados, solo superado por 2.5 Pro.
Gemini 2.5 Flash también ofrece un control granular del proceso de pensamiento; los desarrolladores pueden establecer un número máximo de tokens de pensamiento para ajustar la calidad del razonamiento. Un presupuesto más alto permite al modelo pensar más profundamente, mejorando la calidad de las respuestas, mientras que un presupuesto de 0 permite al modelo superar el rendimiento de 2.0 Flash con el coste mínimo.
En la práctica, la complejidad de las diferentes tareas corresponde a diferentes necesidades de pensamiento. Las tareas sencillas de traducción o cálculo pueden requerir poco pensamiento, mientras que los problemas matemáticos o de programación más complejos requieren más tiempo de razonamiento. Al establecer un presupuesto de pensamiento, los desarrolladores pueden elegir la profundidad de razonamiento adecuada a sus necesidades y resolver problemas de manera más eficiente.
Actualmente, los desarrolladores pueden utilizar Gemini 2.5 Flash a través de la API de Gemini, Google AI Studio y Vertex AI. Google anima a todos a experimentar con los parámetros del presupuesto de pensamiento para explorar cómo la capacidad de razonamiento controlable puede resolver problemas más complejos.