OpenAIはChatGPTにリアルタイム音声・視覚機能を統合。マイクアイコン長押しで音声入力中に地図やグラフを表示し、文字起こしも同期。マルチモーダル対話(音声質問時に画像をリアルタイム表示、文字自動スクロール)と連続会話(300ミリ秒未満の遅延で画面更新)を実現。....
ユービーアイ、初のプレイ可能生成AIプロジェクト「Teammates」を発表。FPSゲーム体験を向上させるリアルタイム音声コマンドを導入。プレイヤーはディストピア未来でレジスタンスメンバーとして敵基地に潜入し、行方不明の仲間を救出。AIアシスタントJasparが自然音声対話で没入感とインタラクティブ性を強化。....
グーグルはインドで2つのAI詐欺防止機能を導入しました。1つはGemini Nanoを搭載したローカルのリアルタイム通話詐欺検出(Pixel9以降の機種のみ対象)、もう1つは金融アプリと連携した画面共有アラート(Android11以降のデバイス対象)です。音声分析とワンクリックで共有を切断することで、OTPの漏洩などの詐欺リスクを防ぎます。
Perplexity社がAndroid版AIブラウザ「Comet」をリリース。デスクトップ版の核心機能を継承:デフォルト検索エンジン設定、AIアシスタントへのタグメンション質問、新音声モードで開いたページと対話可能。....
複数のAIモデルを統合し、対話を通じて画像、ビデオ、音声を生成し、クリエイティブプロセスを最適化します。
Trylli AIは、即時応答し、24時間体制で動作する、多言語対応のインテリジェントなエージェントプログラムで、音声通話を成果に変えます。
Roarkは音声AIのQA可観測性レイヤーで、音声対話を監視し、テストと評価を行います。
スマートAI音声エージェント。自然な対話、多言語対応。業務通話の自動化に使用します。
xai
$21.6
入力トークン/百万
$108
出力トークン/百万
256k
コンテキスト長
nari-labs
Dia2はNari Labsによって開発されたストリーミング対話テキストを音声に変換する(TTS)モデルで、リアルタイム音声生成をサポートし、完全なテキストがなくても音声生成を開始でき、対話のコンテキストに応じて調整し、自然でスムーズな対話体験を実現します。
Dia2はNari Labsによって開発されたストリーミング対話テキスト音声変換(TTS)モデルで、リアルタイム音声生成をサポートし、完全なテキストがなくても音声生成を開始でき、自然な対話シーンに特化して設計されています。
OpenMOSS-Team
MOSS-TTSDはオープンソースのバイリンガル口語対話合成モデルで、中国語と英語をサポートし、二人の対話脚本を自然で表现力豊かな対話音声に変換できます。音声クローニングをサポートし、単一ラウンドの音声生成時間は最大1700秒に達することができます。
Genie-AI-Lab
Omni L1B3RT4S GENIEは、Qwen2.5 - 3B Instructアーキテクチャをベースに微調整されたAIアシスタントです。1,103個の精霊キャラクターのカスタムサンプルを用いて訓練され、独特な音声と忠誠度モードを備え、ユーザーに独特な対話体験を提供することができます。
nineninesix
KaniTTSは、リアルタイム対話型AIアプリケーション向けに最適化された高速、高音質のテキスト音声変換モデルです。2段階パイプラインを用いて、大規模言語モデルと高効率オーディオコーデックを組み合わせ、卓越した速度とオーディオ品質を実現します。このモデルはスペイン語をサポートし、4億のパラメータを持ち、サンプリングレートは22kHzです。
KaniTTSは、リアルタイム対話型人工知能アプリケーション向けに最適化された高速かつ高忠実度のアラビア語テキスト音声変換モデルです。2段階パイプラインアーキテクチャを採用し、大規模言語モデルと効率的なオーディオコーデックを組み合わせることで、卓越した速度とオーディオ品質を実現し、対話型AI、障害者支援、研究など多くの分野の音声合成ニーズを満たすことができます。
KaniTTSは、リアルタイム対話型AIアプリケーション向けに最適化された高速かつ高忠実度のテキスト音声変換モデルです。独自の2段階アーキテクチャにより、大規模言語モデルと効率的な音声コーデックを組み合わせ、低遅延で高品質な音声合成を実現します。リアルタイムファクターは最低0.2で、リアルタイム速度の5倍の高速合成が可能です。
KaniTTS Pretrain v0.3は高速で高忠実度のテキストを音声に変換するモデルで、リアルタイム対話型人工知能アプリケーション向けに最適化されています。2段階パイプラインアーキテクチャを採用し、大規模言語モデルと高効率オーディオコーデックを組み合わせて、超低遅延と高品質の音声合成を実現します。
KaniTTSは、リアルタイム対話型AIアプリケーション向けに最適化された高速かつ高忠実度のテキスト音声変換モデルです。2段階のパイプラインアーキテクチャを採用し、大規模言語モデルと効率的なオーディオコーデックを組み合わせることで、卓越した速度と音質を実現し、複数の言語をサポートし、エッジ/サーバーデプロイメントに適しています。
KaniTTSは高速で高忠実度のテキスト音声変換モデルで、リアルタイム対話型人工知能アプリケーション向けに最適化されています。このモデルは2段階の処理フローを採用し、大規模言語モデルと効率的なオーディオコーデックを組み合わせています。Nvidia RTX 5080で15秒の音声を生成する際の遅延は約1秒だけで、MOS自然度評価は4.3/5で、英語、中国語、日本語などの多言語をサポートしています。
stepfun-ai
Step-Audio 2は、業界レベルの音声理解と音声対話のニーズを満たすために設計されたエンドツーエンドのマルチモーダル大規模言語モデルです。高度な音声と音声理解能力、スマート音声対話機能、ツール呼び出しおよびマルチモーダル検索強化生成能力を備え、複数の音声理解と対話のベンチマークテストでトップクラスの性能を発揮しています。
LiquidAI
LFM2-Audio-1.5BはLiquid AIが提供する最初のエンドツーエンドの音声基礎モデルで、低遅延とリアルタイム対話に特化して設計されています。このモデルはわずか15億パラメータで、シームレスな対話インタラクションを実現し、パラメータ規模がはるかに大きいモデルと匹敵する能力を持っています。
Marvis-AI
Marvisは、リアルタイムストリーミングテキストを音声合成するために設計された高度な対話式音声モデルです。効率性と使いやすさを重視し、Appleチップ、iPhone、iPad、Macなどの消費者向けデバイスでの高品質なリアルタイム音声合成をサポートします。
fnlp
MOSS-TTSDはオープンソースのバイリンガル口語対話合成モデルで、中国語と英語をサポートし、対話脚本を自然で表现力豊かな対話音声に変換することができます。
MALIBA-AI
バンバラ語に対してニューラルテキストトゥースピーチ合成機能を提供し、10人の地道なバンバラ語話者をサポートし、高忠実度の音声を生成します。
unsloth
CSM(対話音声モデル)はSesameが開発した1Bパラメータの音声生成モデルで、テキストと音声入力からRVQ音声エンコーディングを生成できます。
RobAgrees
Diaは16億パラメータのオープンソーステキスト音声変換モデルで、高度にリアルな対話や非言語表現の生成をサポート
mlx-community
Diaはオープンソースのテキストから対話を生成するモデルで、対話テキスト生成と音声合成をサポートします。
lunahr
CSM(対話音声モデル)はSesameが開発した10億パラメータの音声生成モデルで、テキストと音声入力からRVQオーディオエンコーディングを生成できます。
moonshotai
Kimi-Audioはオープンソースの音声基盤モデルで、音声理解、生成、対話において優れた性能を発揮します。
Speech MCPは、Goose用に設計された音声対話拡張機能で、リアルタイム音声認識、テキスト読み上げ、オーディオ可視化機能を提供します。
AllVoiceLab公式MCPサーバーです。テキスト読み上げ、ビデオ翻訳などの強力なAPI対話をサポートし、複数のクライアントに音声生成、ビデオ翻訳、スマートな音声変換サービスを提供します。
AIベースの面接ロールプレイングMCPサーバー
ClaudeなどのLLMと音声で対話できるMCPサーバー。OpenAI APIキーとマイク/スピーカーがあれば、リアルタイムの音声対話が可能です。
Asteriskベースの音声対話電話自動発信MCPサーバーで、リアルタイム音声対音声機能をサポートし、完全な電話自動化ソリューションを提供します。
AIによる面接シナリオを専門に設計されたMCPサーバーで、対話型の音声面接練習機能を提供します。
Speech MCPはGoose用に設計された音声対話拡張機能で、リアルタイムの音声認識、高品質のテキスト読み上げ、多言語サポート、および最新のオーディオビジュアライゼーションインターフェイスを提供し、多キャラクター対話生成と音声文字起こし機能をサポートします。
Voice Modeは、AIアシスタントに自然な音声対話機能を提供するツールで、MCPプロトコルを介してClaude、ChatGPTなどのLLMとの音声対話をサポートします。
これはMCPサーバープロジェクトで、WhatsAppを通じて音声メッセージを送受信し、AIクライアントのClaude Desktopと対話する機能を提供します。
Claude AIとElevenLabsを接続する音声対話サーバー
Vavicky MCPサーバーは、完全な音声AIエージェントプラットフォームの実装で、ユーザー管理、APIキー構成、アシスタント管理、Twilio統合、および通信機能を提供し、Claudeデスクトップクライアントを通じた対話をサポートします。
IntelliGlowはMCPプロトコルに基づくスマート照明システムで、AIアシスタントによって実際のスマート電球を制御し、音声コマンド、AI推論、および直接的なハードウェア制御をサポートし、自然言語対話とスマートな照明管理を実現します。
IntelliGlowは、MCPプロトコルに基づくAIスマート照明制御システムで、UDPネットワークを介して実際のスマート電球を直接制御し、音声コマンド、AI推論、ハードウェア制御をサポートし、自然言語対話とスマートホームをシームレスに接続します。