グーグルは最近、AIチャットボットGeminiの人物画像生成機能を再開すると発表しました。これは、歴史的正確性の欠如による報道が原因で今年初めに一時停止された機能です。グーグルの声明によると、この機能の早期アクセス版は今後数日中にGemini Advanced、Business、Enterpriseユーザー向けに提供開始され、現時点では英語のみ対応となります。
今回のアップデートは、グーグル最新のAIテキスト画像生成器Imagen3によって支えられています。Imagen3は今月初め、AI Test Kitchenを通じてひっそりと発表され、現在はGeminiの全言語バージョンで利用可能です。「数語」の記述だけで、写真のようなリアルな風景から質感のある油絵まで、多様なコンテンツを生成できます。
グーグルGeminiのプロダクトマネジメントシニアディレクターであるDave Citron氏は、新しいImagen3モデルには安全対策が組み込まれており、「他の利用可能な画像生成モデルと比較して、パフォーマンスが向上している」と述べています。以前発生した歴史的正確性の問題を回避するため、生成される画像の正確性と適切性を確保するためにモデルが最適化されました。
注目すべきは、Geminiのこの機能は、グーグルが新たに発表したRemagine機能とは異なる点です。Remagineは、Pixel 9シリーズのスマートフォンで撮影した写真にAI要素を組み込むために特化されています。
コンテンツの安全性をさらに確保するために、Geminiでは、有名人のリアルな画像、未成年者が関与するコンテンツ、流血、暴力、性的な場面の生成は許可されていません。Citron氏は「もちろん、Geminiが作成するすべての画像が完璧というわけではありませんが、早期Gemini Advancedユーザーからのフィードバックを継続的に聞き取り、改善を続けていきます」と認めています。
グーグルは今後、AIによる人物画像生成機能をより多くのユーザーと言語バージョンに拡大し、世界中のユーザーのニーズに対応する計画です。この取り組みは、グーグルのAI画像生成技術の進歩を示すと同時に、技術倫理と安全上の課題への取り組みにおける同社の決意も反映しています。