最高の感情音声対話 AIツールモデル_厳選感情音声対話情報

AIニュース

智元ロボットとMiniMaxが提携！身体知能に基づく音声インターフェースのテキストから音声へのワンストップAI技術を人形ロボットに実装

智元ロボットはMiniMaxと戦略的協力関係を結び、MiniMaxが人形ロボット向けにエンドツーエンドのテキストから音声への技術を提供し、ロボットの現実的な状況における自然な対話や感情表現能力を向上させます。協力の焦点は音声合成にあり、高自然度の音声生成や多様な感情的なトーンモデリングなどの技術を活用して、「話せる」スマートエージェントを作り出します。

9.7k 7 時間前

アリババ・ローンズがオープンソースで大規模な爆弾を投下！感情を読み取れる音声AIが登場。GPT-4oも戦慄するか？

阿里巴巴がオープンソースの音声大規模モデル「Fun-Audio-Chat-8B」を公開。超低遅延と自然な対話を特徴とし、GPT-4o Audioなどのクローズドモデルに匹敵する性能を持つ。リアルタイム理解と感情認識能力を備え、真のAI音声パートナーを目指す。....

15k 13 時間前

ElevenLabsがWhatsAppを接続！AI音声アシスタントが電話の受け払い、一括通話が可能に。カスタマーリボリューションが実際に実装されました

ElevenLabsのAI音声エージェントがWhatsAppに統合され、テキストと音声のデュアルモードで対話可能。ユーザーは文字チャットや音声通話を通じて、リアルなAIアシスタントと会話できます。企業向けに多言語対応、感情認識、リアルタイム翻訳機能を備えたAI音声アシスタントを簡単に導入でき、カスタマーサポート体験を革新します。....

13.9k 20 時間前

OpenAIと対立：グーグルのGemini 2.5のリアルタイム音声性能が首位を記録。関数呼び出しの正確度は71.5%

GoogleがGemini2.5Flash音声モデルをアップグレードし、AIによる人間らしいリアルタイム対話を実現。音声の抑揚・感情・間を直接処理でき、文字変換不要で自然な会話が可能に。....

10.7k 昨日

OpenAIと対立：グーグルのGemini 2.5のリアルタイム音声性能が首位を記録。関数呼び出しの正確度は71.5%

AI製品

Step-Audio

Step-Audioは、多言語対応、感情表現、音声クローンなどの機能を備えたオープンソースのインテリジェント音声対話フレームワークです。

音声認識

10.6k

SpeechGPT 2.0-プレビュー

文脈理解に基づいた、人間レベルのリアルタイム双方向対話システムです。多様な感情表現と音声スタイルに対応しています。

音声をテキストに変換

7.7k

モデル

Claude 3 Sonnet

Anthropic

$21

入力トークン/百万

$105

出力トークン/百万

200

コンテキスト長

qwen3-livetranslate-flaltimeash-re-2025-09-22

Alibaba

入力トークン/百万

$240

出力トークン/百万

コンテキスト長

qwen3-omni-flash-realtime

Alibaba

$3.9

入力トークン/百万

$15.2

出力トークン/百万

コンテキスト長

qwen3-omni-30b-a3b-captioner

Alibaba

$15.8

入力トークン/百万

$12.7

出力トークン/百万

コンテキスト長

qwen3-tts-flash

Alibaba

入力トークン/百万

出力トークン/百万

コンテキスト長

qwen3-tts-flash-realtime

Alibaba

入力トークン/百万

出力トークン/百万

コンテキスト長

qwen3-asr-flash

Alibaba

入力トークン/百万

出力トークン/百万

コンテキスト長

百度スチームエンジン2.0音声映像一体型

Baidu

入力トークン/百万

出力トークン/百万

コンテキスト長

qwen-tts-realtime

Alibaba

$2.4

入力トークン/百万

$12

出力トークン/百万

コンテキスト長

Hunyuan-TurboS-latest

Tencent

$0.8

入力トークン/百万

出力トークン/百万

コンテキスト長

Doubao-1.5-thinking-vision-pro

Bytedance

入力トークン/百万

出力トークン/百万

128

コンテキスト長

Gemma 3n E2B Instructed LiteRT (Preview)

Google

入力トークン/百万

出力トークン/百万

コンテキスト長

Gemma 3n E2B Instructed

Google

入力トークン/百万

出力トークン/百万

コンテキスト長

Gemma 3n E4B

Google

入力トークン/百万

出力トークン/百万

コンテキスト長

qwen-tts

Alibaba

$1.6

入力トークン/百万

$10

出力トークン/百万

コンテキスト長

o4-mini

Openai

$7.7

入力トークン/百万

$30.8

出力トークン/百万

200

コンテキスト長

qwen-omni-turbo

Alibaba

$1.5

入力トークン/百万

$1.6

出力トークン/百万

コンテキスト長

GPT-4.5

Openai

$525

入力トークン/百万

$1050

出力トークン/百万

128

コンテキスト長

Claude 3.7 Sonnet

Anthropic

$21

入力トークン/百万

$105

出力トークン/百万

200

コンテキスト長

Grok-3 Mini

Xai

$2.1

入力トークン/百万

$3.5

出力トークン/百万

128

コンテキスト長

未来を力づける、あなたの人工知能ソリューションシンクタンク

English 简体中文繁體中文にほんご

友情链接:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

ビジネス協力サイトマップ

AIニュース

智元ロボットとMiniMaxが提携！身体知能に基づく音声インターフェースのテキストから音声へのワンストップAI技術を人形ロボットに実装

アリババ・ローンズがオープンソースで大規模な爆弾を投下！感情を読み取れる音声AIが登場。GPT-4oも戦慄するか？

ElevenLabsがWhatsAppを接続！AI音声アシスタントが電話の受け払い、一括通話が可能に。カスタマーリボリューションが実際に実装されました

OpenAIと対立：グーグルのGemini 2.5のリアルタイム音声性能が首位を記録。関数呼び出しの正確度は71.5%

AI製品

Step-Audio

SpeechGPT 2.0-プレビュー

モデル

Claude 3 Sonnet

qwen3-livetranslate-flaltimeash-re-2025-09-22

qwen3-omni-flash-realtime

qwen3-omni-30b-a3b-captioner

qwen3-tts-flash

qwen3-tts-flash-realtime

qwen3-asr-flash

百度スチームエンジン2.0音声映像一体型

qwen-tts-realtime

Hunyuan-TurboS-latest

Doubao-1.5-thinking-vision-pro

Gemma 3n E2B Instructed LiteRT (Preview)

Gemma 3n E2B Instructed

Gemma 3n E4B

qwen-tts

o4-mini

qwen-omni-turbo

GPT-4.5

Claude 3.7 Sonnet

Grok-3 Mini

Dia 1.6B Safetensors Fp16

Dia 1.6B

Csm Expressiva 1b

Emova Qwen 2 5 3b Hf

Matxa Tts Cat Multiaccent