Google hat kürzlich Gemini 2.5 Flash, eine neue Version seiner Gemini-Serie, vorgestellt. Diese Version befindet sich derzeit in der Vorschauphase und soll Entwicklern leistungsstärkere Inferenzfähigkeiten bieten. Mithilfe des „Denkprozesses“ können Entwickler Kosten und Latenz flexibel steuern und so kostengünstigere Lösungen erstellen.
Im Vergleich zur vorherigen Version 2.0 Flash konzentriert sich das Upgrade von Gemini 2.5 Flash hauptsächlich auf die Inferenzfähigkeit. Dies ist das erste vollständig hybride Inferenzmodell von Google, das es Entwicklern ermöglicht, die Denkfunktion zu aktivieren oder zu deaktivieren. Durch die Festlegung eines Denkbudgets können Entwickler den idealen Ausgleich zwischen Qualität, Kosten und Latenz finden. Selbst wenn die Denkfunktion deaktiviert ist, bietet 2.5 Flash die gleiche schnelle Reaktionsgeschwindigkeit wie 2.0 Flash und verbessert die Gesamtperformance.
Dieses neue Denkmodell führt vor der Generierung von Ausgaben eine Reihe von Inferenzprozessen durch. Dieser Prozess hilft dem Modell, die eingegebenen Anweisungen besser zu verstehen, komplexe Aufgaben zu zerlegen und präzisere Antworten zu planen. Bei komplexen Aufgaben, die mehrstufiges Denken erfordern (z. B. das Lösen mathematischer Probleme oder die Analyse von Forschungsproblemen), ermöglicht der Denkprozess dem Modell, genauere und umfassendere Antworten zu liefern. Im „Schwierige Anweisungen“-Test von LMArena schnitt Gemini 2.5 Flash hervorragend ab und lag nur knapp hinter 2.5 Pro.
Gemini 2.5 Flash bietet außerdem eine fein granulare Steuerung des Denkprozesses. Entwickler können eine maximale Anzahl von Denk-Tokens festlegen, um die Inferenzqualität flexibel anzupassen. Ein höheres Budget ermöglicht dem Modell ein tieferes Denken und verbessert somit die Qualität der Antworten. Wird das Budget auf 0 gesetzt, übertrifft das Modell bei minimalen Kosten die Leistung von 2.0 Flash.
In der Praxis entspricht der Komplexitätsgrad verschiedener Aufgaben unterschiedlichen Denkbedürfnissen. Einfache Übersetzungs- oder Berechnungsaufgaben benötigen möglicherweise nur wenig Denkprozess, während komplexere mathematische Probleme oder Programmieraufgaben mehr Inferenzzeit erfordern. Durch die Festlegung eines Denkbudgets können Entwickler die für ihre Anforderungen passende Inferenztiefe auswählen und so verschiedene Probleme effizienter lösen.
Derzeit können Entwickler Gemini 2.5 Flash über die Gemini API, Google AI Studio und Vertex AI nutzen. Google empfiehlt, mit den Parametern des Denkbudgets zu experimentieren und zu untersuchen, wie komplexere Probleme mit steuerbaren Inferenzfähigkeiten gelöst werden können.