グーグルラボは先日、アメリカで最新の生成AI実験ツール「Whisk」をリリースしました。従来の画像生成ツールが主にテキストプロンプトに依存するのに対し、Whiskは画像を主要な入力方法として使用することで、より直感的なアート作品の作成を可能にしています。

ユーザーはWhiskに画像を直接アップロードするか、ツール内で画像を生成し、テーマ、シーン、スタイルなどの要素を指定できます。Whiskシステムはこれらの要素の組み合わせと、必要に応じて追加のテキストプロンプトによる微調整をサポートしています。

image.png

注目すべき点として、バックエンドではグーグルの言語モデル(おそらく最近リリースされたGemini 2.0 Flash)が入力画像の詳細な説明を自動生成します。これらの説明はグーグル最新の画像生成モデルImagen 3に入力され、完全に同一の複製を作成するのではなく、主体の本質的な特徴を捉えます。

AIbaseによる複数回のテストでは、左側の3枚の画像をアップロードすることで、右側の結果を融合生成することができ、効果は良好で、高い遊び心があります。以下に示します。

8a92dca39c0f78a14c7a360b3fe86803.png

2a4e7ad2d1618ebedcb8151bb9b8b117.png

ただし、Whiskは各ソース画像から少数の主要な要素のみを抽出するため、生成された画像の結果は期待と異なる可能性があるとグーグルはユーザーに注意喚起しています。例えば、生成された画像は、高さ、体重、髪型、肌の色などが元の画像と異なる可能性があります。

これについてグーグルは、これらのディテールはプロジェクトの成否に大きく影響するため、ユーザーが画像生成プロセスを駆動するテキストプロンプトを確認および編集できるようにしていると述べています。

一部のアーティストやクリエイティブな専門家を含む初期のテストユーザーは、Whiskは従来の画像エディターではなく、新しいクリエイティブツールであると述べています。グーグルは、このツールがユーザーが正確な編集ではなく、迅速な視覚的なブレインストーミングを行い、気に入った作品を保存する前に、複数のオプションを迅速に生成して選別できるようにすることを期待しています。

初期テストでは、Whiskの使用は非常に快適ですが、新しい画像を生成するたびに数秒間の待ち時間があります。これらの遅延は、高トラフィックによる可能性があり、多くのユーザーが新しいツールを試用するために殺到しています。

現在、Whiskはアメリカ合衆国のユーザーのみに公開されており、labs.google/whiskで無料で試用し、フィードバックを共有できます。その他の国のユーザーは、現時点ではこのツールにアクセスできません。

Whiskはグーグルラボに属しており、これはグーグルがGemini、Imagen、最新のビデオモデルVeo 2など、AIプロジェクトをテストするための実験場です。ほとんどのプロジェクトはまだ実験段階ですが、最近正式にリリースされたAIアシスタントNotebookLMなど、成功したプロジェクトは完成品へと移行していきます。

製品体験アドレス:https://top.aibase.com/tool/whisk

要点:

🌟 グーグルが画像主導の生成AIツールWhiskを発表。

🎨 ユーザーは画像をアップロードまたは生成し、正確な編集ではなく、迅速なビジュアルデザインが可能。

🚫 現在、アメリカ合衆国のユーザーのみ試用可能。その他の国は利用不可。