Kürzlich berichtete die Technologiezeitung The Decoder, dass Google DeepMind einen neuen Bildbearbeitungsmodell namens Gemini2.5Flash veröffentlicht hat. Dieses überarbeitete Modell bietet den Nutzern in der Gemini-App eine präzisere Bildbearbeitungserfahrung und ermöglicht es Benutzern, Fotos durch Textanweisungen erheblich zu verändern, ohne das Aussehen von Personen und Tieren zu beeinflussen.
Im Vergleich zu früheren Bildgenerierungstools zeigt Gemini2.5Flash eine höhere Genauigkeit bei der Verarbeitung komplexer Textanweisungen und übertreffen sogar GPT-4o, das für ChatGPT verwendet wird, in mehreren Aufgaben. Diese Fortschritte machen es Benutzern leichter, ihre Kreativität bei der Bildbearbeitung umzusetzen.
Eine besondere Funktion von Gemini2.5Flash ist die „Rollenkonsistenz“. Selbst bei der Generierung mehrerer Bilder bleibt das ausgewählte Erscheinungsbild von Personen, Tieren oder Objekten konsistent, egal wie sich die Pose, der Hintergrund oder das Licht ändern. Diese Funktion ist besonders wertvoll für Serienbilder von Marken oder Produktansichten aus verschiedenen Winkeln und erhöht die Effizienz der Erstellung von Materialien und Produktkatalogen erheblich.
Zusätzlich unterstützt Gemini2.5Flash präzise lokale Textbearbeitung. Benutzer können ohne manuelle Markierung problemlos Hintergrundunschärfe, Fehlerentfernung, Farbzuordnung oder Objektentfernung durchführen. Es kann sogar bis zu drei Bilder gleichzeitig verknüpfen, zum Beispiel ein Produktbild mit einem Innenraumbild zu einem realistischen Szenario kombinieren. Darüber hinaus verfügt es über eine „Stilübertragungsfunktion“, mit der eine Textur, Farbe oder Muster auf ein anderes Objekt angewandt werden kann, während Form und Details intakt bleiben.
Die „Realitätsreasoning“-Funktion von Gemini2.5Flash bricht die traditionellen Grenzen der Bildbearbeitung. Sie kann einfache Ursachen-Wirkungsbeziehungen simulieren, wie beispielsweise ein Bild, in dem ein Ballon zu einem Kakteen fliegt und anschließend die Folgen zeigt. Diese innovativen Funktionen machen Gemini2.5Flash nicht nur zu einem leistungsstarken Bildbearbeitungstool, sondern auch zu einer kreativen Plattform, auf der Benutzer ihre Fantasie entfalten können.
Momentan können Benutzer einfach das Modell in der Gemini-App auf „Flash“ wechseln, um diese neue Funktion zu testen. Interessanterweise werden die generierten Bilder mit sichtbaren Wasserzeichen und unsichtbaren SynthID-Digitalwasserzeichen versehen, um den Urheberrechsschutz zu gewährleisten. Entwickler können auch über die Gemini API, Google AI Studio und Vertex AI testen, wobei die Kosten 30 Dollar pro Million Ausgabetoken betragen und die Kosten pro Bild etwa 0,039 Dollar betragen.