GoogleがGemini 2.5 FlashとProテキスト読み上げモデルを発表。24言語対応で感情表現やリズム調整が可能。AI Studioで無料テスト提供中。....
マイクロソフトがリアルタイム音声モデルVibeVoice-Realtime-0.5Bをオープンソース化しました。非常に低遅延で、実に人間のような音声表現を備えています。テキスト入力から音声出力にかかる平均時間は300ミリ秒で、従来のTTSモデルよりも1〜3秒と比べて大幅に短く、ほぼゼロ遅延のリアルタイム音声合成を実現しています。
B站Indexチームがテキスト読み上げシステム「IndexTTS-2.0」をオープンソース化。感情制御と時間調整が可能で、ゼロショットTTS技術のブレークスルーを実現。....
マイクロソフトがオープンソースのテキスト音声変換モデル「VibeVoice」を公開。90分の長音声生成をサポートし、長文音声、複数人対話、中国語合成に新たな基準を設定。....
先進的なテキストから音声へのモデルで、高品質な音声合成サービスを提供します。
音声AIのASR、TTS、LLMモデルを提供し、リアルタイムアプリケーション向けにテスト?デプロイ可能です。
ネパール初のAIコンテンツ作成プラットフォームで、TTS、STT、テキストから画像への変換をサポートし、500種類以上の音声、100種類以上の言語に対応しています。
無料でオンラインで、クラシックなMicrosoft SAMのテキスト読み上げサービスを利用できます。
Alibaba
-
入力トークン/百万
出力トークン/百万
コンテキスト長
$2.4
$12
8
$1.6
$10
nari-labs
Dia2はNari Labsによって開発されたストリーミング対話テキストを音声に変換する(TTS)モデルで、リアルタイム音声生成をサポートし、完全なテキストがなくても音声生成を開始でき、対話のコンテキストに応じて調整し、自然でスムーズな対話体験を実現します。
Dia2はNari Labsによって開発されたストリーミング対話テキスト音声変換(TTS)モデルで、リアルタイム音声生成をサポートし、完全なテキストがなくても音声生成を開始でき、自然な対話シーンに特化して設計されています。
neuphonic
NeuTTS Airは世界初の即時音声クローン機能を備えた超リアルな端側テキスト読み上げ(TTS)言語モデルです。0.5Bパラメータの大規模言語モデルの骨格をベースに構築され、ローカルデバイスに自然な音声、リアルタイム性能、組み込みセキュリティ、話者クローン機能をもたらします。
NeuTTS Airは世界初の即時音声クローニング機能を備えた超リアルなデバイス端テキスト音声変換(TTS)言語モデルです。0.5Bの大規模言語モデルのバックボーンネットワークをベースに構築され、ローカルデバイスに自然な音声、リアルタイム性能、組み込みセキュリティ機能、話者クローニング機能をもたらします。
notmax123
Zonos-v0.1は、20万時間以上の多言語音声データを基にトレーニングされた、最先端のオープンソースのテキスト読み上げ(TTS)モデルです。表现力と品質は、トップレベルのTTSサプライヤーと匹敵します。ゼロショット音声クローン、多言語合成、および細かいオーディオ制御をサポートしています。
NeuCodecのONNXコンパイル版デコーダー。デバイス端末のテキスト読み上げ(TTS)用に設計された軽量級オーディオデコードモデルで、エンコードされたオーディオ特徴量を高品質なオーディオ信号に効率的に変換できます。
snorbyte
snorTTS-Indic-v0は、9種類のインド語の音声を生成できる多言語インド語音声合成(TTS)モデルです。
unsloth
Orpheus TTSは、Llamaをベースとした高度な音声大規模言語モデル(Speech - LLM)で、高品質で感情豊かな音声生成を目的として設計されています。
kyutai
京都台テキスト音声変換(TTS)モデルは、ストリーミングテキスト音声変換に使用されるモデルで、リアルタイム音声生成と多言語処理をサポートしています。
re-skill
Orpheus TTSは、Llamaをベースとした高度な音声大規模言語モデルで、高品質で感情豊かなテキスト読み上げ機能を実現するために設計されています。
salihfurkaan
VoxPolska Auralisは、先進的なポーランド語のテキスト読み上げ(TTS)モデルで、最先端のディープラーニング技術を採用し、ポーランド語の微妙なニュアンスや語調を正確に捉え、書面のテキストを自然で流暢かつ表现力豊かな音声に変換することができます。
cocktailpeanut
OpenAudio S1は、200万時間以上の多言語オーディオデータを基にトレーニングされた、先進的なテキスト読み上げ(TTS)モデルです。13種類の一般的な言語をサポートし、高品質の音声合成サービスを提供し、豊富な感情、語調、特殊効果のマーキングをサポートします。
LlasaはLLaMAベースのテキスト読み上げ(TTS)システムで、音声トークンを統合することで言語モデルの能力を拡張し、中国語と英語の音声生成をサポートします。
hcsolakoglu
オルホン-TTSはF5 TTSアーキテクチャに基づくトルコ語テキスト音声変換モデルで、Hasan Can Solakoğluによって開発され、現在アルファ段階です。
mmwillet2
Dia 1.6Bはテキスト音声変換タスクに適したモデルで、複数の量子化バージョンをサポートし、TTS.cppフレームワークと互換性があります。
mrfakename
OpenF5 TTSはF5-TTSフレームワークでトレーニングされたオープンソースのテキスト読み上げモデルで、ゼロショット音声クローン機能をサポートし、Apache 2.0ライセンスのもと商用利用が可能です。
alakxender
これはディヴィヒ語の音声合成に対して微調整されたVITSモデルで、タナ文字で書かれたディヴィヒ語のテキストを高品質の女性音声オーディオに変換することができます。MetaのMMS - TTSアーキテクチャに基づき、精心に企画された合成ディヴィヒ語音声データセットを使用して訓練されています。
NikolayKozloff
Muyan-TTSはテキスト音声変換(TTS)モデルで、llama.cppで使用できるようGGUF形式に変換されています。
2121-8
llm-jp/llm-jp-3-150m-instruct3に基づいて訓練された日本語TTS基礎モデル、簡素化された制御プロンプトで効率的なパラメータ設定を実現
syvai
1000時間以上のデンマーク語データでトレーニングされたテキスト読み上げモデル、自然な会話シーンの音声合成をサポート
Zonos TTSとClaudeのMCP統合プロジェクトで、テキストを音声に変換する機能を実現します。
FishSpeechに基づくテキスト読み上げ(TTS)MCPサーバーで、音声参照の保存をサポートし、DiveなどのMCP互換のLLMと統合して使用できます。
Kokoro TTSエンジンをベースにした音声合成MCPサービス
Chatterbox TTSモデルに基づく簡易MCPサーバーで、テキストを音声に変換して自動再生する機能を提供し、リアルタイムの進捗通知と自動モデルロードをサポートしています。
Kokoroテキスト読み上げ(TTS)MCPサーバーで、MP3ファイルの生成とS3ストレージへのアップロードをサポートしています。
Deep - CoはCompose Multiplatformをベースに開発されたクロスプラットフォームチャットクライアントで、OpenRouter、Anthropic、Grok、OpenAIなどの複数のLLM APIプロバイダをサポートし、OpenAI APIとローカルモデルと互換性があります。チャット履歴管理、プロンプト管理、ロール適合、TTSなどの機能を備え、多言語とテーマカスタマイズをサポートしています。
MCPサーバーとOpenAI TTS SDKに基づくテキストを音声に変換するツールで、ローカル環境での再生をサポートしています。
Blabber - MCPはOpenAIのテキスト読み上げAPIに基づくMCPサーバーで、LLMに音声出力機能を提供します。
MCPフレームワークに基づく多機能なTTSサーバーで、KokoroのローカルTTSとOpenAIのクラウドTTSエンジンを統合し、リアルタイムオーディオストリーム、音声カスタマイズ、再生制御をサポートしています。
OpenAI TTS APIに基づく高品質のテキスト読み上げツールとMCPサービス
Kokoro TTSモデルに基づくテキストを音声に変換するMCPサーバーで、高品質な音声合成サービスを提供します
Claude AIにLinuxシステム上でのZonos TTS音声合成を統合する
Windows TTS MCPサーバーは、PowerShellベースのテキストを音声に変換するサービスで、Claude Desktopに安定した効率的なTTS機能を提供し、音声制御、速度調整、緊急ミュートなどの操作をサポートしています。
MCPベースのテキスト読み上げサーバー
このプロジェクトは、Google ADKとElevenLabsのMCPサーバーを使用して、テキスト読み上げ(TTS)のエージェントを構築し、uvx接続を通じて音声合成機能を実現しています。