最近、テクノロジーメディアである The Decoder は、グーグルの DeepMind が新しくて高精度な Gemini2.5Flash 画像編集モデルを発表したと報道しました。このアップグレード版モデルは、Gemini アプリでユーザーにより正確な画像編集体験を提供し、写真に対して大幅な修正を行うことができますが、人物や動物の外見には影響を与えません。

以前の画像生成ツールと比較して、Gemini2.5Flash は複雑な文章指令を処理する際の正確性が高くなっており、多くのタスクにおいて ChatGPT で使われている GPT-4o を上回っています。この進歩により、ユーザーは画像編集を行う際に自分のアイデアをより簡単に実現できるようになります。

image.png

Gemini2.5Flash の特徴の一つは「キャラクターの一貫性」機能です。複数の画像を生成する際でも、ユーザーが指定した人物、動物、またはオブジェクトの外見は一貫しており、ポーズ、背景、照明がどのように変化しても変わりません。この機能はブランドのシリーズ写真や製品の多角度展示にとって非常に価値があり、素材や製品カタログの作成効率を大幅に向上させます。

さらに、Gemini2.5Flash は正確な部分的なテキスト編集をサポートしています。ユーザーは手動で選択する必要なく、背景のぼかし、欠陥の除去、色の追加、物体の削除などの操作を簡単に実行できます。また、最大で3枚の画像を一度に融合でき、例えば製品写真と室内写真を組み合わせて現実的なシーンを作成することも可能です。さらに、「スタイル転送」機能もあり、あるテクスチャ、色、模様を別のオブジェクトに適用しながら、形状と細部の完全性を保つことができます。

Gemini2.5Flash の「現実推論」機能は伝統的な画像編集の制限を突破しており、単純な因果関係をシミュレーションすることができます。たとえば、風船がサボテンに向かって飛んでいく場面やその後の結果を生成することが可能です。これらのイノベーション機能により、Gemini2.5Flash は強力な写真編集ツールだけでなく、ユーザーが想像力を発揮できる創作プラットフォームともなります。

現在、ユーザーは Gemini アプリ内でモデルを「Flash」に切り替えることでこの新しい機能を体験できます。注意すべきは、生成された画像には表示可能な水印と見えない SynthID のデジタル水印が付いていることです。これは作品の著作権保護を確保するためです。開発者は Gemina API、Google AI Studio および Vertex AI を通じて試用可能で、使用料は100万出力トークンあたり30ドル、1枚の画像のコストは約0.039ドルです。