智元ロボットはMiniMaxと戦略的協力関係を結び、MiniMaxが人形ロボット向けにエンドツーエンドのテキストから音声への技術を提供し、ロボットの現実的な状況における自然な対話や感情表現能力を向上させます。協力の焦点は音声合成にあり、高自然度の音声生成や多様な感情的なトーンモデリングなどの技術を活用して、「話せる」スマートエージェントを作り出します。
阿里巴巴がオープンソースの音声大規模モデル「Fun-Audio-Chat-8B」を公開。超低遅延と自然な対話を特徴とし、GPT-4o Audioなどのクローズドモデルに匹敵する性能を持つ。リアルタイム理解と感情認識能力を備え、真のAI音声パートナーを目指す。....
ElevenLabsのAI音声エージェントがWhatsAppに統合され、テキストと音声のデュアルモードで対話可能。ユーザーは文字チャットや音声通話を通じて、リアルなAIアシスタントと会話できます。企業向けに多言語対応、感情認識、リアルタイム翻訳機能を備えたAI音声アシスタントを簡単に導入でき、カスタマーサポート体験を革新します。....
GoogleがGemini2.5Flash音声モデルをアップグレードし、AIによる人間らしいリアルタイム対話を実現。音声の抑揚・感情・間を直接処理でき、文字変換不要で自然な会話が可能に。....
Step-Audioは、多言語対応、感情表現、音声クローンなどの機能を備えたオープンソースのインテリジェント音声対話フレームワークです。
文脈理解に基づいた、人間レベルのリアルタイム双方向対話システムです。多様な感情表現と音声スタイルに対応しています。
Anthropic
$21
入力トークン/百万
$105
出力トークン/百万
200
コンテキスト長
Alibaba
$8
$240
52
$3.9
$15.2
64
$15.8
$12.7
-
Baidu
$2.4
$12
8
Tencent
$0.8
$2
32
Bytedance
$3
$9
128
Google
$1.6
$10
Openai
$7.7
$30.8
$1.5
$525
$1050
Xai
$2.1
$3.5
thepushkarp
DiaはNari Labsが開発した16億パラメータのテキスト音声合成モデルで、テキストから高度にリアルな対話を直接生成でき、感情やイントネーションの調整および非言語表現の生成をサポートします。
nari-labs
DiaはNari Labsが開発した16億パラメータのテキスト音声合成モデルで、テキストから高度にリアルな対話を直接生成でき、感情やイントネーションの制御をサポートし、非言語コミュニケーション内容も生成可能です。
senstella
CSM-1b対話音声モデルをファインチューニングした感情音声モデルで、ささやきスタイルの音声合成をサポート
Emova-ollm
EMOVAはエンドツーエンドの全能モーダル大規模言語モデルで、視覚、聴覚、音声機能をサポートし、感情音声対話能力を備えています。
projecte-aina
複数話者・多方言対応の初のニューラル音声合成モデルで、4種類のカタルーニャ方言の高品質な感情表現音声を生成可能