アリの健康管理アプリ「阿福」が「高齢者モード」をリリース。文字とアイコンが大きく、音声操作がデフォルトに。健康相談の電話機能を追加し、方言対応も継続。3種類のアバター選択可能で、今後さらに拡充予定。....
京東テクノロジーと楽奇 Rokid が協力して、世界初のスマートメガネ向けショッピングアプリ「JoyGlance」をリリースしました。AIの大規模モデルと光波導技術を組み合わせ、音声で対話するショッピングを実現し、ユーザーの操作を簡略化しています。
アップルは2026年にiOS 27をリリースし、Siriを自然な対話が可能なAIチャットボット「Campos」に進化させる計画。ChatGPT並みの流暢な音声対話を実現し、従来の単純なコマンド応答の制限を打破する。....
インドの音声AIスタートアップBolnaは、630万ドルのシードラウンド資金調達を実施しました。General Catalystがリードし、Y Combinatorなどの投資家が参加しました。同社のプラットフォームは多言語対応のスマート音声通話をサポートし、企業がカスタマーアクションを自動化するのを支援します。
ブラッシュリーではAIキャラクターと音声でチャットでき、無料で制限なし、カスタマイズとロールプレイングに対応しています。
複数のAIモデルを統合し、対話を通じて画像、ビデオ、音声を生成し、クリエイティブプロセスを最適化します。
Trylli AIは、即時応答し、24時間体制で動作する、多言語対応のインテリジェントなエージェントプログラムで、音声通話を成果に変えます。
Roarkは音声AIのQA可観測性レイヤーで、音声対話を監視し、テストと評価を行います。
Google
$0.49
入力トークン/百万
$2.1
出力トークン/百万
1k
コンテキスト長
Anthropic
$105
$525
200
$7
$35
$17.5
$21
Alibaba
$8
$240
52
-
$3.9
$15.2
64
$15.8
$12.7
Bytedance
$0.8
$2
128
Deepseek
$4
$12
Baidu
$0.75
256
Tencent
24
32
$3.5
nari-labs
Dia2はNari Labsによって開発されたストリーミング対話テキストを音声に変換する(TTS)モデルで、リアルタイム音声生成をサポートし、完全なテキストがなくても音声生成を開始でき、対話のコンテキストに応じて調整し、自然でスムーズな対話体験を実現します。
Dia2はNari Labsによって開発されたストリーミング対話テキスト音声変換(TTS)モデルで、リアルタイム音声生成をサポートし、完全なテキストがなくても音声生成を開始でき、自然な対話シーンに特化して設計されています。
OpenMOSS-Team
MOSS-TTSDはオープンソースのバイリンガル口語対話合成モデルで、中国語と英語をサポートし、二人の対話脚本を自然で表现力豊かな対話音声に変換できます。音声クローニングをサポートし、単一ラウンドの音声生成時間は最大1700秒に達することができます。
Genie-AI-Lab
Omni L1B3RT4S GENIEは、Qwen2.5 - 3B Instructアーキテクチャをベースに微調整されたAIアシスタントです。1,103個の精霊キャラクターのカスタムサンプルを用いて訓練され、独特な音声と忠誠度モードを備え、ユーザーに独特な対話体験を提供することができます。
nineninesix
KaniTTSは、リアルタイム対話型AIアプリケーション向けに最適化された高速、高音質のテキスト音声変換モデルです。2段階パイプラインを用いて、大規模言語モデルと高効率オーディオコーデックを組み合わせ、卓越した速度とオーディオ品質を実現します。このモデルはスペイン語をサポートし、4億のパラメータを持ち、サンプリングレートは22kHzです。
KaniTTSは、リアルタイム対話型人工知能アプリケーション向けに最適化された高速かつ高忠実度のアラビア語テキスト音声変換モデルです。2段階パイプラインアーキテクチャを採用し、大規模言語モデルと効率的なオーディオコーデックを組み合わせることで、卓越した速度とオーディオ品質を実現し、対話型AI、障害者支援、研究など多くの分野の音声合成ニーズを満たすことができます。
KaniTTSは、リアルタイム対話型AIアプリケーション向けに最適化された高速かつ高忠実度のテキスト音声変換モデルです。独自の2段階アーキテクチャにより、大規模言語モデルと効率的な音声コーデックを組み合わせ、低遅延で高品質な音声合成を実現します。リアルタイムファクターは最低0.2で、リアルタイム速度の5倍の高速合成が可能です。
KaniTTS Pretrain v0.3は高速で高忠実度のテキストを音声に変換するモデルで、リアルタイム対話型人工知能アプリケーション向けに最適化されています。2段階パイプラインアーキテクチャを採用し、大規模言語モデルと高効率オーディオコーデックを組み合わせて、超低遅延と高品質の音声合成を実現します。
KaniTTSは、リアルタイム対話型AIアプリケーション向けに最適化された高速かつ高忠実度のテキスト音声変換モデルです。2段階のパイプラインアーキテクチャを採用し、大規模言語モデルと効率的なオーディオコーデックを組み合わせることで、卓越した速度と音質を実現し、複数の言語をサポートし、エッジ/サーバーデプロイメントに適しています。
KaniTTSは高速で高忠実度のテキスト音声変換モデルで、リアルタイム対話型人工知能アプリケーション向けに最適化されています。このモデルは2段階の処理フローを採用し、大規模言語モデルと効率的なオーディオコーデックを組み合わせています。Nvidia RTX 5080で15秒の音声を生成する際の遅延は約1秒だけで、MOS自然度評価は4.3/5で、英語、中国語、日本語などの多言語をサポートしています。
stepfun-ai
Step-Audio 2は、業界レベルの音声理解と音声対話のニーズを満たすために設計されたエンドツーエンドのマルチモーダル大規模言語モデルです。高度な音声と音声理解能力、スマート音声対話機能、ツール呼び出しおよびマルチモーダル検索強化生成能力を備え、複数の音声理解と対話のベンチマークテストでトップクラスの性能を発揮しています。
LiquidAI
LFM2-Audio-1.5BはLiquid AIが提供する最初のエンドツーエンドの音声基礎モデルで、低遅延とリアルタイム対話に特化して設計されています。このモデルはわずか15億パラメータで、シームレスな対話インタラクションを実現し、パラメータ規模がはるかに大きいモデルと匹敵する能力を持っています。
Marvis-AI
Marvisは、リアルタイムストリーミングテキストを音声合成するために設計された高度な対話式音声モデルです。効率性と使いやすさを重視し、Appleチップ、iPhone、iPad、Macなどの消費者向けデバイスでの高品質なリアルタイム音声合成をサポートします。
fnlp
MOSS-TTSDはオープンソースのバイリンガル口語対話合成モデルで、中国語と英語をサポートし、対話脚本を自然で表现力豊かな対話音声に変換することができます。
MALIBA-AI
バンバラ語に対してニューラルテキストトゥースピーチ合成機能を提供し、10人の地道なバンバラ語話者をサポートし、高忠実度の音声を生成します。
unsloth
CSM(対話音声モデル)はSesameが開発した1Bパラメータの音声生成モデルで、テキストと音声入力からRVQ音声エンコーディングを生成できます。
RobAgrees
Diaは16億パラメータのオープンソーステキスト音声変換モデルで、高度にリアルな対話や非言語表現の生成をサポート
mlx-community
Diaはオープンソースのテキストから対話を生成するモデルで、対話テキスト生成と音声合成をサポートします。
lunahr
CSM(対話音声モデル)はSesameが開発した10億パラメータの音声生成モデルで、テキストと音声入力からRVQオーディオエンコーディングを生成できます。
moonshotai
Kimi-Audioはオープンソースの音声基盤モデルで、音声理解、生成、対話において優れた性能を発揮します。
Speech MCPは、Goose用に設計された音声対話拡張機能で、リアルタイム音声認識、テキスト読み上げ、オーディオ可視化機能を提供します。
AIベースの面接ロールプレイングMCPサーバー
AllVoiceLab公式MCPサーバーです。テキスト読み上げ、ビデオ翻訳などの強力なAPI対話をサポートし、複数のクライアントに音声生成、ビデオ翻訳、スマートな音声変換サービスを提供します。
Claude Codeに音声対話モードを提供するMCPサービスです。ブラウザを通じてハンズフリーの連続双方向音声対話をサポートし、音声認識とテキスト読み上げ機能を備えています。
ClaudeなどのLLMと音声で対話できるMCPサーバー。OpenAI APIキーとマイク/スピーカーがあれば、リアルタイムの音声対話が可能です。
Jarvis MCPはブラウザベースの音声対話ツールで、ユーザーがマイクを使ってAIアシスタントと自然な音声で会話することができます。30種類以上の言語の認識と遠隔アクセスをサポートし、追加のソフトウェアやAPIキーのインストールは必要ありません。
Asteriskベースの音声対話電話自動発信MCPサーバーで、リアルタイム音声対音声機能をサポートし、完全な電話自動化ソリューションを提供します。
AIによる面接シナリオを専門に設計されたMCPサーバーで、対話型の音声面接練習機能を提供します。
Speech MCPはGoose用に設計された音声対話拡張機能で、リアルタイムの音声認識、高品質のテキスト読み上げ、多言語サポート、および最新のオーディオビジュアライゼーションインターフェイスを提供し、多キャラクター対話生成と音声文字起こし機能をサポートします。
Voice Modeは、AIアシスタントに自然な音声対話機能を提供するツールで、MCPプロトコルを介してClaude、ChatGPTなどのLLMとの音声対話をサポートします。
これはMCPサーバープロジェクトで、WhatsAppを通じて音声メッセージを送受信し、AIクライアントのClaude Desktopと対話する機能を提供します。
Claude AIとElevenLabsを接続する音声対話サーバー
Tavus MCPサーバーは、Model Context Protocolに基づくAIビデオ生成サービスインターフェースで、Tavus API v2の完全な機能を提供し、AIデジタル人の作成、ビデオ生成、対話型AI、唇形同期、音声合成など25のツールを含んでいます。
Vavicky MCPサーバーは、完全な音声AIエージェントプラットフォームの実装で、ユーザー管理、APIキー構成、アシスタント管理、Twilio統合、および通信機能を提供し、Claudeデスクトップクライアントを通じた対話をサポートします。
IntelliGlowはMCPプロトコルに基づくスマート照明システムで、AIアシスタントによって実際のスマート電球を制御し、音声コマンド、AI推論、および直接的なハードウェア制御をサポートし、自然言語対話とスマートな照明管理を実現します。
IntelliGlowは、MCPプロトコルに基づくAIスマート照明制御システムで、UDPネットワークを介して実際のスマート電球を直接制御し、音声コマンド、AI推論、ハードウェア制御をサポートし、自然言語対話とスマートホームをシームレスに接続します。