2025年1月20日、豆包アプリは最新の「エンドツーエンド」音声大規模モデルを正式にリリースし、リアルタイム音声通話機能を大幅にアップデートしました。この進歩は、豆包の音声インタラクション分野における新たな飛躍を象徴しており、従来のASR(自動音声認識)、LLM(大規模言語モデル)、TTS(テキスト音声変換)の連携方式を凌駕し、音声認識、理解、生成を単一のモデルに統合しました。
『インテリジェント・エマージェンス』によるテストによると、新バージョンの豆包最大の特長は、人間のような表現力と感情表現を備え、会話の流暢さと知能レベルを向上させた点です。「ソウルシンガー」と「変幻自在」モードでは、歌を歌うだけでなく、多彩なキャラクターになりきることができ、ユーザーインタラクションの新たな寵児となっています。例えば、ユーザーが豆包に虞書欣(ユ・シューシン)の声真似を依頼すると、豆包はキャラクターの口調を完璧に再現するだけでなく、いたずらっぽく独自の個性を表現します。
さらに特筆すべきは、豆包が自然な会話の中で即興で曲を創作できる点です。複雑な指示や専門的なプロンプトは必要ありません。ユーザーは自由に豆包に歌を依頼し、歌詞のテーマを指定することもできます。豆包のパフォーマンスには多少のミスもありますが、反応速度と即興創作能力は驚くべきものであり、その強力な擬人化能力を示しています。
また、新たに「いじけやすい豆包」と「褒め上手」の2種類の人格モードを追加し、ユーザーに新鮮な体験を提供します。これらのモードにより、豆包は異なる状況で異なる感情やスタイルを示し、インタラクションの面白さとリアリティを高めます。
音声インタラクション技術が日々進化する中、豆包の今回のアップデートは、AIの適用範囲を感情的な寄り添い、心理カウンセリングなどの分野に拡大するだけでなく、AIの感情的なコミュニケーション能力を人間により近づけました。この変化は、競争の激しい市場において豆包が確固たる地位を築き、AIインタラクションの未来の発展を牽引していくことは間違いありません。