Im Bereich der KI-Bilderzeugung sind traditionelle Textprompts weit verbreitet. Google präsentiert mit Whisk jedoch einen völlig neuen, visuell orientierten Ansatz. Benutzer können Bilder als Eingabe verwenden, um kreative Ideen zu generieren und neu zu kombinieren, was Kreativen eine intuitivere und kreativere Bilderzeugungserfahrung bietet.

Hero_hmKlSP6.width-1600.format-webp.png

Whisk – Eine Einführung

Whisk ist ein innovatives generatives KI-Tool von Google Labs. Mit Hilfe der Modelle Gemini und Imagen 3 generiert es neue Bilder anhand von vom Benutzer eingegebenen Bildern, die das Motiv, die Szene und den Stil repräsentieren. Das Tool konzentriert sich hauptsächlich auf kreative Exploration und soll Benutzern helfen, schnell verschiedene kreative Ideen zu generieren und zu iterieren, nicht aber zur präzisen Bildbearbeitung. Derzeit ist Whisk nur für Benutzer in den USA (US-IP) verfügbar. Benutzer können das Tool unter labs.google/whisk nutzen und Feedback geben.

截屏2024-12-17 下午3.45.28.jpg

Highlights der Whisk-Funktionen

  • Bildgesteuerte Generierung: Benutzer können Bilder hochladen, um Motiv, Szene und Stil zu bestimmen, anstatt Textprompts zu verwenden. Dies bietet Benutzern, die nicht gut im Verfassen von Textprompts sind, eine einfachere Möglichkeit. Beispielsweise kann ein Benutzer ein Bild einer Katze als Motiv, ein Bild einer Seerosenblatt als Szene und ein Bild mit glänzenden Elementen als Stil hochladen, um ein einzigartiges Bild zu generieren.
  • Automatische Generierung detaillierter Bildunterschriften: Das Gemini-Modell erstellt automatisch detaillierte Bildunterschriften für die vom Benutzer hochgeladenen Bilder. Diese Beschreibungen werden an das Imagen 3-Modell übergeben, um die wichtigsten Merkmale des Bildes besser zu erfassen und ein neues Bild zu generieren, das den Absichten des Benutzers entspricht.
  • Kreative Neukombination: Es ist möglich, verschiedene Motiv-, Szenen- und Stilbilder neu zu kombinieren, um einzigartige Designs zu schaffen, z. B. digitale Puppen, Emaille-Anstecknadeln und andere kreative Produkte.
  • Wesensmerkmale erfassen, nicht kopieren: Es werden die wesentlichen Merkmale der Eingabebilder erfasst, nicht exakt kopiert. Dies ermöglicht mehr kreative Variationen in den generierten Bildern, kann aber auch dazu führen, dass die Ergebnisse nicht genau den Erwartungen des Benutzers entsprechen.
  • Bearbeitbare Prompts: Benutzer können die zugrunde liegenden Promptinformationen anzeigen und bearbeiten, um die generierten Bilder nach ihren Bedürfnissen anzupassen und zu optimieren, z. B. Farben oder Muster.

截屏2024-12-17 下午3.50.10.jpg

Anwendungsbereiche

  1. Kreatives Design: Designer können Whisk verwenden, um schnell verschiedene Designrichtungen zu erkunden und durch das Hochladen verschiedener relevanter Bilder kreative Inspiration zu generieren, z. B. für das Design des Erscheinungsbildes eines neuen Produkts.
  2. Künstlerische Gestaltung: Künstler können Whisk für die Vorplanung künstlerischer Arbeiten verwenden und verschiedene Elemente durch Bild-Eingabe kombinieren und ausprobieren, z. B. für die Gestaltung eines Gemäldes mit Fantasy-Thema durch Hochladen relevanter Bilder von Fantasy-Wesen und -Szenen.
  3. Personalisierte Produktanpassung: In der Branche für personalisierte Produkte wie maßgeschneiderte Abzeichen oder Aufkleber kann Whisk Benutzern helfen, schnell verschiedene Designoptionen zu generieren. Benutzer müssen lediglich Bilder hochladen, die ihre Vorlieben für Motiv, Szene und Stil repräsentieren, um ein einzigartiges, maßgeschneidertes Design zu erhalten.
  4. Werbung und Marketing: Werbeplaner können Whisk verwenden, um kreative Werbematerialien zu generieren. Durch das Hochladen von produktbezogenen Motivbildern sowie von Szenen und Stilen, die dem Markenimage entsprechen, lassen sich schnell ansprechende Werbebilder für die Online- und Offline-Werbung erstellen.
  5. Bildungsbereich: Im Bildungsbereich können Lehrer Whisk zur Unterstützung des Unterrichts einsetzen, z. B. im Kunstunterricht, indem Schüler Bilder von Dingen hochladen, die sie interessieren, um ihre Kreativität und Fantasie anzuregen.

截屏2024-12-17 下午3.48.01.jpg

Whisk-Anleitung

  1. Zugriff auf das Tool: Benutzer mit US-IP können über labs.google/whisk auf die Whisk-Tool-Seite zugreifen.
  2. Bilder hochladen: Laden Sie je nach gewünschtem Bildinhalt Bilder hoch, die das Motiv, die Szene und den Stil repräsentieren. Wenn keine geeigneten Bilder vorhanden sind, können Sie auch auf das Würfelsymbol klicken, um Vorschläge für Bilder zu erhalten (diese Bilder können auch KI-generiert sein).
  3. Bilder generieren: Nach dem Hochladen der Bilder generiert Whisk automatisch neue Bilder und die entsprechenden Textprompts.
  4. Anzeigen und Anpassen: Sehen Sie sich die generierten Bilder an. Wenn Sie nicht zufrieden sind, können Sie die Informationen im Textfeld bearbeiten oder auf das Bild klicken und den zugehörigen Textprompt bearbeiten, um das Bild anzupassen und zu optimieren.
  5. Herunterladen oder Speichern: Wenn Sie mit den generierten Bildern zufrieden sind, können Sie sie herunterladen und speichern oder zu Ihren Favoriten hinzufügen, um sie später zu verwenden.

截屏2024-12-17 下午3.46.32.jpg

Fazit

Whisk ist ein innovatives KI-Bildgenerierungs-Tool, das durch seine einzigartige Bild-Eingabemethode und die Funktion zur kreativen Neukombination ein völlig neues kreatives Erlebnis bietet. Es hat ein großes Anwendungspotenzial in den Bereichen kreatives Design, künstlerische Gestaltung und personalisierte Produktanpassung. Obwohl es derzeit nur für Benutzer in den USA verfügbar ist und möglicherweise einige unvollkommene Ergebnisse liefert, ist die von ihm vertretene, visuell orientierte Richtung der KI-Bilderzeugung bemerkenswert.

Wenn Sie sich für Kreativität und KI-Bilderzeugung interessieren, geben Sie doch einen Daumen hoch, hinterlassen Sie einen Kommentar und verfolgen Sie die Entwicklung von Whisk weiter. Wir erwarten, dass es uns in Zukunft noch mehr Überraschungen und Möglichkeiten bieten wird.