Deepgramは、リアルタイム音声AIエージェントのニーズに応えるべく、Auraという名前のテキスト読み上げモデルを発表しました。Auraは、迅速な応答と自然な音声による言葉の補完を含む、より人間らしい音声による会話体験を提供することで、音声AIプロバイダーが抱える速度、コスト、会話品質といった問題を解決します。Deepgramは、Auraを通じてリアルタイムの対話型音声AIエージェントのための包括的なプラットフォームとなり、高スループット分野の効率性を向上させることを目指しており、正式リリースは来年初頭を予定しています。
関連AIニュースの推奨

Microsoft Edgeブラウザ、無料AIアシスタント「Copilot Vision」機能をリリース 画面内容をリアルタイムに解釈
Microsoftは先日、Edgeブラウザに新しいAIアシスタント機能「Copilot Vision」を無料で追加しました。この機能により、ユーザーは音声でAIアシスタントと対話し、画面の内容をリアルタイムに解釈し、様々なタスクをこなせるようになります。Microsoftの人工知能担当最高責任者、ムスタファ・スレイマン氏によると、Copilot Visionは音声ベースのアシスタント機能です。ユーザーは機能を有効にするだけで使用できます。

Anthropic、音声AIアシスタントClaudeを発表へ 3種類の音声モードを提供
ブルームバーグの報道によると、人工知能企業Anthropicは、AIチャットボットClaudeに統合される新しい音声AIアシスタントのリリースを準備中で、今月中にも正式発表される見込みです。この新機能により、ユーザーは音声でClaudeと対話することが可能になり、人間と機械のコミュニケーションの利便性と自然さが向上します。Anthropicは、Airy、Mellow、Buttという3種類の異なる英語音声モードを導入する計画です。

Spark-TTS:AIによる音声クローンとカスタマイズを実現!

テキスト読み上げシステムSpark-TTS:ゼロショット音声クローンと詳細な制御に対応

bilibiliテキスト音声変換モデルIndexTTS:ピンインによる漢字の発音修正と正確なポーズ制御に対応

ElevenLabs、作家向けAIオーディオブック出版計画を発表、Audibleに対抗
TechCrunchによると、音声AI企業ElevenLabsは、同社のリーダーアプリでAI生成オーディオブックの出版を作家に許可しました。これは、同社がSpotifyと提携してAIナレーションのオーディオブックをリリースした後のことです。ElevenLabsは先月1億8000万ドルという巨額の資金を調達し、昨年から作家を対象に出版計画のトライアルを実施、今回正式にすべての作家に開放されました。同社は、制作コストを削減し、Audibleに対抗するために、価格が手頃で使いやすいオーディオブック制作ツールを提供することを目指しています。

音声AI「一気に完成」!階躍、1300億パラメーターの支配級音声モデルをオープンソース化、リアルタイム会話+感情複製で衝撃の登場
音声インタラクション分野に画期的なブレークスルー到来!中国のAI企業、階躍(Step Audio)が最近、1300億パラメーターの超大型音声モデルを衝撃的にオープンソース化し、業界の注目を集めています。この「支配級」と称される強力なモデルは、業界初の音声理解と生成制御を統合した製品レベルのオープンソースリアルタイム音声対話システムであり、その機能の包括性と技術の先進性は驚くべきもので、音声AI技術の発展が「一気に完成」し、新たな高みに到達する可能性を示唆しています。このオープンソースモデルの最も重要な特徴は、その…

中国語ビジュアル音声オープンソースモデルVITA-1.5リリース GPT-4に匹敵する高度な音声・視覚能力を備える
近年、マルチモーダル大規模言語モデル(MLLM)は目覚ましい進歩を遂げ、特に視覚とテキストモーダルの統合において顕著な成果を上げています。しかし、ヒューマンコンピュータインタラクションの普及に伴い、音声モーダルの重要性もますます高まっており、特にマルチモーダル対話システムにおいては不可欠となっています。音声は情報伝達の重要な媒体であるだけでなく、インタラクションの自然性と利便性を大幅に向上させる役割も担っています。しかし、視覚データと音声データは本質的に異なるため、これらをMLLMに統合することは容易ではありません。例えば、視覚データは空間情報を伝達する一方、音声データは時間軸上の情報を伝達します。

AI音声決済の新たな飛躍、iWalletが「話しかけるだけで決済」を実現
デジタル決済分野における新たな大きな革新として、決済ソリューションプロバイダーのiWalletが音声AI決済システムをいち早く導入しました。この画期的な技術の導入は、決済業界が正式にスマート音声インタラクションの時代に入ったことを示しています。現在の決済業界では、対話型音声応答(IVR)や双音多周波(DTMF)などの従来技術が広く採用されており、ユーザーエクスペリエンスの悪さや、ペイメントカード業界(PCI)のコンプライアンスに関する課題に直面しています。この問題点を解決するため、iWalletが開発した音声AIシステムはPCI DSS準拠を確保しています

音声AIの革新者!PlayAI:音でデジタルインタラクションの境界を再構築
シンプルなChrome拡張機能から、現在2000万ドルを超える評価額を持つAI音声帝国へと成長したPlayAIは、音声技術によって人と機械のインタラクションの可能性を再定義しています。創設者であるHammad SyedとMahmoud Felfelは、コードとアルゴリズムを用いて可能性に満ちた音の世界を作り出しました。これは単なる音声技術会社ではなく、文字を瞬時に生き生きとした音声に変換する魔法工場です。PlayAIの最大の魅力はその驚異的な音声クローンと生成能力にあります。