InworldがTTS-1.5を発表。自然で表現力豊かなリアルタイム音声を特徴とし、多言語対応、250ミリ秒未満の低遅延、1分あたり約0.005ドルの低コストで、競合より25倍安価。幅広いユーザー獲得が見込まれる。....
NVIDIAがPersonaPlex-7B-v1音声対話モデルを発表。従来の「一問一答」型AI音声アシスタントを超え、より自然な対話を実現。単一Transformerアーキテクチャで音声理解と生成を直接処理し、従来のASR、LLM、TTSの連携処理が不要。....
Resemble AIがオープンソース音声モデル「Chatterbox Turbo」を発表。5秒の音声でクローン可能、遅延150ミリ秒未満で、リアルタイムAIエージェントやゲームキャラクターに最適。....
GoogleがGemini 2.5 FlashとProテキスト読み上げモデルを発表。24言語対応で感情表現やリズム調整が可能。AI Studioで無料テスト提供中。....
Noiz AIは声のクローン、感情制御をサポートし、多言語TTSと開発者用APIを提供します。
先進的なテキストから音声へのモデルで、高品質な音声合成サービスを提供します。
Nexa SDKは数分以内にAIモデルを任意のデバイスにデプロイでき、迅速でプライバシー保護に優れ、多様なシーンに適用できます。
音声AIのASR、TTS、LLMモデルを提供し、リアルタイムアプリケーション向けにテスト?デプロイ可能です。
Alibaba
-
入力トークン/百万
出力トークン/百万
コンテキスト長
$2.4
$12
8
$1.6
$10
nari-labs
Dia2はNari Labsによって開発されたストリーミング対話テキストを音声に変換する(TTS)モデルで、リアルタイム音声生成をサポートし、完全なテキストがなくても音声生成を開始でき、対話のコンテキストに応じて調整し、自然でスムーズな対話体験を実現します。
Dia2はNari Labsによって開発されたストリーミング対話テキスト音声変換(TTS)モデルで、リアルタイム音声生成をサポートし、完全なテキストがなくても音声生成を開始でき、自然な対話シーンに特化して設計されています。
neuphonic
NeuTTS Airは世界初の即時音声クローン機能を備えた超リアルな端側テキスト読み上げ(TTS)言語モデルです。0.5Bパラメータの大規模言語モデルの骨格をベースに構築され、ローカルデバイスに自然な音声、リアルタイム性能、組み込みセキュリティ、話者クローン機能をもたらします。
NeuTTS Airは世界初の即時音声クローニング機能を備えた超リアルなデバイス端テキスト音声変換(TTS)言語モデルです。0.5Bの大規模言語モデルのバックボーンネットワークをベースに構築され、ローカルデバイスに自然な音声、リアルタイム性能、組み込みセキュリティ機能、話者クローニング機能をもたらします。
notmax123
Zonos-v0.1は、20万時間以上の多言語音声データを基にトレーニングされた、最先端のオープンソースのテキスト読み上げ(TTS)モデルです。表现力と品質は、トップレベルのTTSサプライヤーと匹敵します。ゼロショット音声クローン、多言語合成、および細かいオーディオ制御をサポートしています。
NeuCodecのONNXコンパイル版デコーダー。デバイス端末のテキスト読み上げ(TTS)用に設計された軽量級オーディオデコードモデルで、エンコードされたオーディオ特徴量を高品質なオーディオ信号に効率的に変換できます。
snorbyte
snorTTS-Indic-v0は、9種類のインド語の音声を生成できる多言語インド語音声合成(TTS)モデルです。
unsloth
Orpheus TTSは、Llamaをベースとした高度な音声大規模言語モデル(Speech - LLM)で、高品質で感情豊かな音声生成を目的として設計されています。
kyutai
京都台テキスト音声変換(TTS)モデルは、ストリーミングテキスト音声変換に使用されるモデルで、リアルタイム音声生成と多言語処理をサポートしています。
re-skill
Orpheus TTSは、Llamaをベースとした高度な音声大規模言語モデルで、高品質で感情豊かなテキスト読み上げ機能を実現するために設計されています。
salihfurkaan
VoxPolska Auralisは、先進的なポーランド語のテキスト読み上げ(TTS)モデルで、最先端のディープラーニング技術を採用し、ポーランド語の微妙なニュアンスや語調を正確に捉え、書面のテキストを自然で流暢かつ表现力豊かな音声に変換することができます。
cocktailpeanut
OpenAudio S1は、200万時間以上の多言語オーディオデータを基にトレーニングされた、先進的なテキスト読み上げ(TTS)モデルです。13種類の一般的な言語をサポートし、高品質の音声合成サービスを提供し、豊富な感情、語調、特殊効果のマーキングをサポートします。
LlasaはLLaMAベースのテキスト読み上げ(TTS)システムで、音声トークンを統合することで言語モデルの能力を拡張し、中国語と英語の音声生成をサポートします。
hcsolakoglu
オルホン-TTSはF5 TTSアーキテクチャに基づくトルコ語テキスト音声変換モデルで、Hasan Can Solakoğluによって開発され、現在アルファ段階です。
mmwillet2
Dia 1.6Bはテキスト音声変換タスクに適したモデルで、複数の量子化バージョンをサポートし、TTS.cppフレームワークと互換性があります。
mrfakename
OpenF5 TTSはF5-TTSフレームワークでトレーニングされたオープンソースのテキスト読み上げモデルで、ゼロショット音声クローン機能をサポートし、Apache 2.0ライセンスのもと商用利用が可能です。
alakxender
これはディヴィヒ語の音声合成に対して微調整されたVITSモデルで、タナ文字で書かれたディヴィヒ語のテキストを高品質の女性音声オーディオに変換することができます。MetaのMMS - TTSアーキテクチャに基づき、精心に企画された合成ディヴィヒ語音声データセットを使用して訓練されています。
NikolayKozloff
Muyan-TTSはテキスト音声変換(TTS)モデルで、llama.cppで使用できるようGGUF形式に変換されています。
2121-8
llm-jp/llm-jp-3-150m-instruct3に基づいて訓練された日本語TTS基礎モデル、簡素化された制御プロンプトで効率的なパラメータ設定を実現
syvai
1000時間以上のデンマーク語データでトレーニングされたテキスト読み上げモデル、自然な会話シーンの音声合成をサポート
Zonos TTSとClaudeのMCP統合プロジェクトで、テキストを音声に変換する機能を実現します。
FishSpeechに基づくテキスト読み上げ(TTS)MCPサーバーで、音声参照の保存をサポートし、DiveなどのMCP互換のLLMと統合して使用できます。
Kokoro TTSエンジンをベースにした音声合成MCPサービス
Chatterbox TTSモデルに基づく簡易MCPサーバーで、テキストを音声に変換して自動再生する機能を提供し、リアルタイムの進捗通知と自動モデルロードをサポートしています。
Kokoroテキスト読み上げ(TTS)MCPサーバーで、MP3ファイルの生成とS3ストレージへのアップロードをサポートしています。
Deep - CoはCompose Multiplatformをベースに開発されたクロスプラットフォームチャットクライアントで、OpenRouter、Anthropic、Grok、OpenAIなどの複数のLLM APIプロバイダをサポートし、OpenAI APIとローカルモデルと互換性があります。チャット履歴管理、プロンプト管理、ロール適合、TTSなどの機能を備え、多言語とテーマカスタマイズをサポートしています。
MCPサーバーとOpenAI TTS SDKに基づくテキストを音声に変換するツールで、ローカル環境での再生をサポートしています。
Blabber - MCPはOpenAIのテキスト読み上げAPIに基づくMCPサーバーで、LLMに音声出力機能を提供します。
MCPフレームワークに基づく多機能なTTSサーバーで、KokoroのローカルTTSとOpenAIのクラウドTTSエンジンを統合し、リアルタイムオーディオストリーム、音声カスタマイズ、再生制御をサポートしています。
OpenAI TTS APIに基づく高品質のテキスト読み上げツールとMCPサービス
Kyutai TTSのDockerデプロイメントソリューションで、ワンクリックで起動できるWebインターフェイス、REST API、およびMCPツールをサポートします。GPUアクセラレーションと多言語インターフェイスをサポートします。
Kokoro TTSモデルに基づくテキストを音声に変換するMCPサーバーで、高品質な音声合成サービスを提供します
Windows TTS MCPサーバーは、PowerShellベースのテキストを音声に変換するサービスで、Claude Desktopに安定した効率的なTTS機能を提供し、音声制御、速度調整、緊急ミュートなどの操作をサポートしています。
Claude AIにLinuxシステム上でのZonos TTS音声合成を統合する
MCPベースのテキスト読み上げサーバー
このプロジェクトは、Google ADKとElevenLabsのMCPサーバーを使用して、テキスト読み上げ(TTS)のエージェントを構築し、uvx接続を通じて音声合成機能を実現しています。