OpenAIは昨年発表したGPT-4に基づいて、再び高度な音声モードを大幅にアップデートしました。これにより、音声コミュニケーションがより自然になり、人類の対話に近づきました。この先進的な機能は、ネイティブのマルチモーダルモデルに依存しており、音声入力に素早く反応し、最短232ミリ秒で返答し、平均応答時間は320ミリ秒です。ほぼ人間の対話速度と遜色ありません。

今年の初めには、OpenAIがこの音声モードを若干改良し、割り込み頻度やアクセント処理を改善しました。今回の大幅アップデートでは、さらに音声返答のトーンが細やかになり、リズムもより自然になっています。特に、間歇や強調の処理が非常に生き生きとしています。また、更新後のシステムは、同情や皮肉など様々な感情をより正確に表現できるようになり、機械と人間のコミュニケーションに人情味を加えました。

ChatGPT OpenAI 人工知能 (1)

さらに興奮すべき点は、今回のアップデートで翻訳機能が追加されたことです。ChatGPTユーザーは簡単な指示だけで、対話中にリアルタイムで翻訳を行うことができます。停止指示を受けるまで続けられます。この機能の提供により、専門の音声翻訳アプリケーションへの依存が減少し、ユーザー体験が向上するでしょう。現在、アップデートされた高度な音声モードは有料ユーザーのみ利用可能です。

これらの改良により音声インタラクションの質が大きく向上しましたが、OpenAIは現段階でのアップデートにいくつかの既知の制限があることを明確にしています。例えば、一部の場合において音声の品質がわずかに低下したり、トーンやトーン感が予期しない変化を起こすことがあります。特に特定の音声オプションでは顕著です。また、稀に実際の対話とは異なる結果が出ることもあり、広告や無意味な発言、意図しないバックグラウンドノイズなどが含まれる場合があります。OpenAIは、これらの問題を解決するために、音声の一貫性を引き続き向上させる努力を続けています。

今回のアップデートは、AIの音声インタラクション体験をさらに自然にし、人間と人工知能とのコミュニケーションの基礎をより堅固なものにしました。