最近の開発アップデートにおいて、グーグルはGemini2.5バージョンをリリースし、AIによる音声対話と生成技術に大きな進展がもたらされました。Gemini2.5はマルチモーダルなAIシステムであり、テキスト、画像、音声、ビデオ、コードなどを原生で理解し生成できるため、ユーザーとAIとのインタラクション体験を向上させています。

image.png

Gemini2.5のリアルタイム音声対話機能により、ヒューマンとマシンのコミュニケーションがより自然になりました。人間の会話にはトーン、訛り、笑いなどの非言語的な音声要素が含まれることが多いため、これらのディテールはGeminiの音声生成技術によって忠実に再現されます。その低遅延特性により、スムーズで自然な会話が可能になり、ユーザーは自然な言葉を使って会話のスタイルを調整できます。例えば、異なる訛りやトーン、さらにはささやき声でのコミュニケーションも選択可能です。

リアルタイム音声対話

人間の会話は豊かで繊細なものであり、意味は話された言葉だけでなく、トーン、訛り、笑いなどの非言語的な音声要素にも依存しています。Gemini2.5は音声を通じて効率的かつリアルタイムのコミュニケーションを目指しており、その音声対話機能には以下の特長があります:

  • 自然な対話:高品質な音声インタラクションを提供し、適切な表現力とリズムを持つため、会話がスムーズで自然に進行します。遅延も極めて低いです。
  • スタイル制御:ユーザーは自然言語による指示で、対話のトーン、訛り、感情表現をカスタマイズすることが可能です。ささやき声での会話も選択できます。
  • ツール統合:対話中、Gemini2.5はGoogle検索などからの情報をリアルタイムで取得し、対話を実用的に強化します。
  • 対話のコンテキスト認識:システムはバックグラウンドノイズや無関係な会話を識別・無視し、適切なタイミングで応答します。
  • 音声・映像理解:リアルタイムの音声および映像ストリームをサポートし、ユーザーとビデオ内容や画面共有情報について議論できます。
  • マルチリンガル対応:24以上の言語をサポートし、同じ会話内で複数の言語を柔軟に切り替えられます。
  • 感情対話:ユーザーのトーンに基づいて反応し、異なる表現方法における感情の違いを理解します。
  • 高度な思考対話:推論能力により、対話の一貫性と知能性を向上させ、特に複雑な問題において優れたパフォーマンスを発揮します。

コントロール可能なテキストから音声への変換技術

Gemini2.5のテキストから音声への変換(TTS)技術は新たなブレークスルーを迎えました。ユーザーは自然な音声出力を生成するだけでなく、音声にこれまでにないコントロールを行うことができます。ユーザーは短いフレーズから長編の説明まで生成でき、スタイル、トーン、感情、表現を正確に制御し、すべての要素は自然言語の指示で調整可能です。

  • ダイナミックな表現:テキストを魅力的に朗読し、詩、ニュースリポート、物語の読み聞かせに最適です。特定の感情や訛りを表現することも可能です。
  • 速度と発音のコントロール:ユーザーは音声のスピードを調整でき、特定の単語の正確な発音を確保できます。
  • 複数の話者対話生成:テキスト入力に基づいて二人の話者による音声対話を生成できるため、コンテンツがより魅力的になります。
  • 多言語音声生成:簡単に多言語の音声コンテンツを生成でき、24以上の言語に対応しています。

Gemini2.5の開発中、グーグルは潜在的なリスクを慎重に評価し、適切な緩和策を講じました。すべての音声出力には「SynthID」というウォーターマーク技術が埋め込まれており、AI生成音声の透明性と識別可能性を確保しています。

Gemini2.5は開発者にとって多くのネイティブな音声機能を提供し、Google AI StudioやVertex AIのGemini APIを利用して、よりインタラクティブなアプリケーションを作成することができます。開発者はGoogle AI StudioのストリームタブでGemini2.5 Flashプレビューのネイティブ音声対話を試すことができます。また、コントロール可能なテキストから音声への変換を使用して、お知らせ、物語、ポッドキャスト、ビデオゲームなどのアプリケーションにおける音声の革新を促進できます。