マイクロソフトは、最新の音声から音声(S2S)モデル「GPT-realtime」がAzure AI Foundryプラットフォームで正式リリースされたことを公式に発表しました。この新しいモデルは、マイクロソフトが音声技術において行った多数の改善を統一された製品に統合しており、その核心的な利点は自然な言語処理、優れた音声品質、そしてより正確な指示の遂行能力に集約されています。
開発者は新しいReal-time APIを通じてGPT-realtimeにアクセスできます。このモデルは、より自然で表現力豊かな音声出力と高品質な音声体験を提供することを目的としています。今回のリリースに伴い、マイクロソフトは2つの新しい音声オプションであるMarinとCedarを発表しました。これらはユーザーに現実的で明瞭な音声合成効果をもたらすことを目的としています。
マイクロソフトは、新モデルのいくつかの重要な改良を強調しています。それは、機能呼び出しの能力の向上、より高い指示実行精度、およびイノベーティブな画像入力サポートです。この新機能により、ユーザーは音声会話中に画像を追加し、それについて議論することができ、ビデオストリームに依存することなくマルチモーダルインタラクションを実現できます。
技術面でのアップグレードに加え、マイクロソフトは価格モデルにも調整を施しました。以前のgpt-4o-realtimeプレビュー版と比較して、正式版のgpt-realtimeの価格は20%低下し、コストは使用量に応じて100万トークンごとに計算されます。
今回のリリースは、マイクロソフトが開発者や企業向けにリアルタイムAI機能を拡張しようとする取り組みを示しています。表現力豊かな音声合成、高品質な音声、そしてマルチモーダル入力を組み合わせることで、GPT-realtimeは高度なカスタマーサポートシステムから革新的なアクセシビリティツールに至るまで、幅広いアプリケーションシーンに強力な技術的支援を提供することが期待されています。