グーグルは最近、Gemini 2.5 Flash Native Audio のアップデートをリリースし、音声アシスタントの機能を顕著に強化しました。このバージョンは、複雑な作業フローをよりよく処理し、ユーザーの指示を正確に実行することを目的としています。また、会話をより自然でスムーズにしています。グーグルのフィードバックによると、新しいバージョンでは開発者向けの指示を遵守する率が84%から90%に上昇しており、これは音声アシスタントがユーザーの要望を理解し実行する能力の大幅な向上を示しています。
多段階の会話の質においても、アップデートにより明確な改善が見られます。ユーザーは音声アシスタントとやり取りする際に、よりスムーズなコミュニケーションを体験することができるでしょう。この改善により、アシスタントは複雑な質問やタスクにさらに適応できるようになり、ユーザーにより効率的なサービスを提供します。
グーグルはまた、アップデート後の音声モデルがComplexFuncBenchのベンチマークテストで関数呼び出しの正確性が71.5%に達したことを明らかにしました。一方で、OpenAI の gpt-realtime は66.5%です。ただし、グーグルがテストでOpenAIの最新バージョンを使用していなかった可能性がある点には注意が必要です。
今回のアップデートは、Google AI Studio、Vertex AI、Gemini Live、Search Live でリリースされており、Google Cloudの顧客もこの新技術をすでに使用しています。開発者はGemini APIを通じてモデルをテストし、その潜在能力をさらに探求できます。
今回のアップデートは、機能の向上だけでなく、グーグルが人工知能分野で継続的に進歩しようとする意思と努力を反映しています。これにより、ユーザーにさらに良い体験を提供しています。
ポイントをまとめます:
🌟 更新された音声アシスタントは、ユーザーの指示を従う正確性が84%から90%に向上しました。
📈 新バージョンはComplexFuncBenchのベンチマークテストで関数呼び出しの正確性が71.5%に達しました。
💻 開発者はGemini APIを通じて新しいモデルをテストし、その改善された機能を体験できます。



