Perplexity AIは、iOSアプリに新しい音声アシスタント機能を追加し、AIアシスタントの実用性とインタラクション体験をさらに向上させました。AIbaseの情報によると、この新機能は、アラームの設定、ルート検索、メッセージ送信、レストランの予約など、多くのタスクに対応しています。強力なリアルタイム検索と複数のアプリとの統合により、シームレスなスマートライフ体験を提供します。関連するアップデートはApp Storeで公開されており、コミュニティからの反響も大きく、Perplexityが総合的なAIアシスタント分野に力強く進出していることを示しています。
主な機能:マルチタスク処理とリアルタイムインタラクション
Perplexityの音声アシスタントは、マルチモーダル入力とアプリ連携により、日常タスクの自動化能力を大幅に向上させています。AIbaseがその主な機能をまとめました:
音声によるタスク実行:ユーザーは音声コマンドでアラームの設定、SMSの送信、電話のかけ方、カレンダーの管理などを行うことができます。「明日の朝7時にアラームを設定してください」や「Sarahに会議の招待状を送信してください」など。
リアルタイムルートプランニング:高德地图などの地理情報サービスと連携し、音声アシスタントは指示に基づいてルートを検索および計画できます。「近くのカフェへの最速ルートを検索してください」など、リアルタイムの交通情報も提供します。
複数アプリとの統合:Spotify、YouTube Musicなどのメディアサービスと連携し、音楽、ポッドキャスト、またはビデオを再生できます。また、サードパーティアプリを使用してレストランを予約したり、配車サービスを利用したりすることもできます。
画面とカメラのインタラクション:「Live View」カメラクエリと「On-Screen Context」機能に対応しており、画面の内容や現実のオブジェクトを分析できます。例えば、道路標識の翻訳やウェブページのテキストの要約など。
多言語対応:日本語、スペイン語などの言語の音声インタラクションを追加し、自然言語処理と組み合わせることで、複数言語間のスムーズな会話を実現しています。
AIbaseは、コミュニティテストで、ユーザーが音声コマンド「今夜のレストランを検索して4人用のテーブルを予約してください」を使用して、検索、絞り込み、予約の全プロセスを完了し、全体的な体験が直感的で効率的で、SiriやGoogleアシスタントに匹敵することを確認しました。
技術アーキテクチャ:マルチモーダルAIとコンテキスト認識
Perplexityの音声アシスタントは、そのコアAIモデル(Claude3.7Sonnet、GPT-4o、Gemini2.5Proなど)とマルチモーダルテクノロジースタックに基づいています。AIbaseの分析によると、その重要な技術には以下が含まれます:
自動音声認識(ASR):深層ニューラルネットワークを採用し、多言語の音声入力を正確に認識し、複雑なコマンドやアクセントの解析に対応し、応答遅延はミリ秒レベルです。
コンテキスト認識エンジン:会話履歴を記憶することで、アシスタントはレストランの検索後に直接予約するなど、後続のコマンドをシームレスに処理でき、コンテキストの繰り返しは不要です。
マルチモーダル処理:視覚(カメラ入力)、音声(音声コマンド)、テキスト(画面内容)を統合し、クロスモーダルタスクに対応しています。「この画像のフランス語の道路標識を翻訳してください」など。
リアルタイム検索と引用:Perplexityの検索技術と組み合わせることで、出典付きの回答を提供し、情報の正確性を確保します。「バルセロナの今日の天気」を検索すると、気象ウェブサイトのリンクが添付されます。
セキュリティとプライバシー:サンドボックス環境で実行され、データは暗号化されて転送されます。音声検索はシークレットモードでも履歴が記録されますが、ユーザーが手動で削除する必要があります。
現在、音声アシスタントはiOS(iOS16.0以上が必要)に対応しており、Android版の一部の機能は2.37.0へのアップデートで有効になります。Mac版は近日公開予定です。AIbaseは、そのオープンソースAPIと複数のモデルの選択肢が開発者に柔軟なカスタマイズの余地を提供すると考えています。
アプリケーションシナリオ:日常の利便性から専門的な支援まで
Perplexityの音声アシスタントの多機能性により、個人生活から仕事まで、さまざまなニーズに対応できます。AIbaseはその主な用途をまとめました:
日常生活管理:リマインダーの設定、メッセージの送信、メディアの再生、サービスの予約など、日常タスクの簡素化。「今晩8時にNetflixの新ドラマを見ることを思い出させてください」など。
旅行とナビゲーション:リアルタイムのルート検索、道路標識の翻訳、ホテルの予約など、旅行者や海外ユーザーに適しています。「東京タワーへのバスルートを検索してください」など。
作業効率の向上:カレンダーの管理、メールの作成、通知の要約など、専門家が効率的に作業を行うのに役立ちます。「未読メールを要約して優先順位を付けます」など。
教育と研究:音声で学術資料を検索したり、画面の内容を分析したりすることで、学生や研究者を支援します。「このPDFの要点の概要を示してください」など。
アクセシビリティのサポート:視覚障害者や身体の不自由なユーザーに音声制御と環境認識を提供し、デバイスのアクセシビリティを向上させます。
コミュニティのフィードバックによると、音声アシスタントのコンテキストメモリと多言語サポートは、異文化交流において優れたパフォーマンスを示しており、「iPhoneユーザーのためのSiriの代替品」と呼ばれています。AIbaseは、Telegram Botとの統合により、クロスプラットフォームの使用シナリオがさらに拡大していることを確認しました。
スタートガイド:簡単な有効化、迅速な体験
AIbaseの情報によると、Perplexityの音声アシスタントは、iOS版Perplexityアプリを通じてすべてのユーザーに公開されています。Androidユーザーは2.37.0バージョンにアップデートする必要があります。ユーザーは以下の手順で簡単に開始できます:
App StoreまたはGoogle PlayでPerplexityアプリをアップデートします(iOS16.0以上またはAndroid10以上)。
アプリを開き、ホームページのバナーをクリックするか、設定に移動して音声アシスタントを有効にします(Settings > Enable Assistant)。
必要な権限(マイク、カメラ、位置情報、連絡先など)を付与し、ジェスチャー(電源ボタンを押すなど)またはインターフェースでアシスタントをアクティブにします。
「明日の午前9時にアラームを設定してください」や「パリへのルートを検索してください」など、音声コマンドを使用して、リアルタイムで結果を確認します。
コミュニティでは、「Hands-Free Mode」を有効にして連続会話を実現し、コマンドを明確にしてマルチタスク処理を最適化することを推奨しています。AIbaseは、Androidユーザーは完全な機能を取得するために2.37.0 APKをサイドロードする必要がある可能性があり、iOSユーザーはプライバシー設定に注意して検索履歴を管理する必要があることを思い出させています。
コミュニティの反響と改善の方向性
音声アシスタントのリリース後、コミュニティはその複数のアプリとの統合と自然なインタラクションを高く評価しました。開発者はそれを「検索とタスクの自動化を完璧に組み合わせたもの」と呼び、特にルートプランニングとメディア再生におけるパフォーマンスはGoogleアシスタントを上回っています。日本語ユーザーは特に、UIフィードバックと音声の滑らかさを高く評価し、「安心感」を得ています。しかし、一部のユーザーは、「Hey Google」のようなホットワードウェイクアップ機能が不足しており、シークレットモードでも検索履歴が記録されるため、プライバシーに関する懸念が生じる可能性があると指摘しています。コミュニティでは、より多くの言語(中国語など)とビデオ分析機能のサポートも期待されています。Perplexityは、今後のアップデートでホットワードウェイクアップを最適化し、プライバシー制御を強化すると回答しています。AIbaseは、アシスタントがCometブラウザやエンタープライズ版APIと統合され、クロスデバイスのAIエコシステムを構築する可能性があると予測しています。
将来展望:スマートアシスタントのエコシステムの進化
Perplexityの音声アシスタントのリリースは、検索ツールから総合的なAIアシスタントへの転換という野心を示しています。AIbaseは、マルチモーダルインタラクションとリアルタイム検索の組み合わせが、Siri、ChatGPTなどの大手企業への挑戦の基礎を築いていると考えています。コミュニティでは、Home AssistantやMCPプロトコルとの統合について議論されており、スマートホームと自動化されたワークフローを構築しています。長期的に見ると、Perplexityは「AIアシスタントマーケット」を立ち上げ、Alexa Skillsのようなエコシステムモデルと同様に、カスタマイズされた音声モデルとサードパーティプラグインを提供する可能性があります。AIbaseは、2025年にアシスタントのAndroid版とMac版が全面的にリリースされ、マルチモーダルタスクと低消費電力デバイスのサポートにおいてブレイクスルーが期待されます。