マイクロソフトは、リアルタイムのテキストから音声への変換モデルである VibeVoice-Realtime-0.5B をリリースしました。0.5B のパラメータで約300ミリ秒以内に発声を開始し、ほぼリアルタイムでのスムーズな音声生成を実現しています。このモデルは中英両方の言語を対応しており、中国語の表現は英語に比べてやや劣るものの、全体としては高いスムーズさと再現性を保っています。自然な音質が注目されています。
Reverie社は、ヒンディ語、英語およびHinglishの混合言語をサポートする新しい音声からテキストへの変換モデルを発表しました。このモデルは、インドの多言語環境に適応しており、300万回以上のAPI呼び出しを処理し、銀行やコールセンターなど業界での高い正確性と迅速な応答能力を示しています。
Maya Researchが発表したMaya1テキストから音声への変換モデルは、30億パラメータを備え、単一のGPUでリアルタイムで動作可能です。このモデルは自然言語の説明およびテキスト入力に基づき、制御可能な表現力豊かな音声を生成し、年齢や訛り、またはキャラクターの特徴などを指定して人間の感情と声の詳細を正確に模倣します。
StepFun AIがオープンソースの音声編集モデル「Step-Audio-EditX」を発表。3Bパラメータで音声編集をテキスト編集のようなトークン操作に変換し、直接制御を実現。感情やスタイルの制御が難しい既存システムの課題を解決し、表現力豊かな音声編集を簡易・正確に可能にする。....
BlabbyAIのChrome拡張機能で、音声を迅速かつ正確にテキストに変換し、任意のウェブサイトでの音声入力をサポートします。
ネパール初のAIコンテンツ作成プラットフォームで、TTS、STT、テキストから画像への変換をサポートし、500種類以上の音声、100種類以上の言語に対応しています。
笑いと感情を含むリアルタイムのテキストから音声への変換。
Veo 3.1はテキストを1080pの映画ビデオに変換し、一貫したキャラクター、リアルな動作、同期した音声を備えています。
Openai
$2.8
入力トークン/百万
$11.2
出力トークン/百万
1k
コンテキスト長
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
Baidu
128
$6
$24
256
$4
$16
$8
$240
52
Bytedance
$1.2
$3.6
4
$2
onnx-community
Supertonic-TTS-ONNXは、ONNX形式に基づくテキストから音声への変換モデルで、英語のテキストを自然で流れる音声に変換することができます。このモデルはSupertone/supertonic基礎モデルに基づいて開発され、Transformers.jsライブラリ用に最適化されており、ブラウザ環境で効率的に動作します。
pnnbao-ump
VieNeu-TTS-1000hは、約1000時間の高品質ベトナム語音声データを基にトレーニングされた、先進的なベトナム語エッジ側テキスト音声変換モデルです。即時音声クローニング機能を備え、ベトナム語と英語のシームレスな切り替えをサポートし、CPUまたはGPU上で24kHz波形をリアルタイムで合成できます。
nari-labs
Dia2はNari Labsによって開発されたストリーミング対話テキストを音声に変換する(TTS)モデルで、リアルタイム音声生成をサポートし、完全なテキストがなくても音声生成を開始でき、対話のコンテキストに応じて調整し、自然でスムーズな対話体験を実現します。
Dia2はNari Labsによって開発されたストリーミング対話テキスト音声変換(TTS)モデルで、リアルタイム音声生成をサポートし、完全なテキストがなくても音声生成を開始でき、自然な対話シーンに特化して設計されています。
abr-ai
これはApplied Brain Research(ABR)によって開発された、状態空間モデル(SSM)に基づく英語の自動音声認識モデルです。約1900万のパラメータを持ち、英語の音声を効率的かつ正確にテキストに変換することができます。このモデルは複数のベンチマークデータセットで優れた性能を発揮し、平均単語誤り率はわずか10.61%です。リアルタイム音声認識をサポートし、低コストのハードウェアで動作することができます。
IbrahimSalah
これは300時間の純粋なアラビア語音声データを基に微調整されたテキスト音声変換モデルで、完全な母音記号付きの現代標準アラビア語に特化した高品質な音声合成を提供し、音声クローンと長文処理機能をサポートしています。
Marvis-AI
これはMLXフレームワークに基づいて最適化されたテキスト音声変換モデルで、元のモデルMarvis-AI/marvis-tts-100m-v0.2から変換され、6ビット量子化技術を採用し、Apple Siliconハードウェア用に特別に最適化され、効率的な音声合成能力を提供します。
dinhthuan
NeuTTS - Airベトナム語テキストを音声に変換するモデルは、260万以上のベトナム語オーディオサンプルに基づき、NeuTTS - Air基礎モデルから微調整された高品質のベトナム語音声合成モデルです。このモデルは、自然で流暢なベトナム語音声合成を実現でき、音声クローニング機能をサポートし、生産環境に合わせて最適化されています。
VieNeu-TTSは、個人デバイス上で動作可能な最初のベトナム語のテキスト音声変換モデルで、即時音声クローニング機能を備えています。NeuTTS Airをベースに微調整され、自然でリアルなベトナム語音声を生成でき、CPU上でリアルタイム性能を備えています。
mradermacher
SoulX-Podcast-1.7B は、Soul-AILab/SoulX-Podcast-1.7B に基づく静的量子化バージョンで、テキストを音声に変換するタスクに特化しています。このモデルは英語と中国語をサポートし、さまざまなハードウェアとパフォーマンス要件に対応するための複数の量子化バージョンを提供します。
TheStageAI
TheWhisper-Large-V3-Turboは、OpenAI Whisper Large V3モデルの高性能ファインチューニング版で、TheStage AIによって多プラットフォームのリアルタイム、低遅延、低消費電力の音声テキスト変換推論に最適化されています。ストリーミング文字起こし、単語のタイムスタンプ、拡張可能なパフォーマンスをサポートし、リアルタイム字幕、会議、デバイス端末の音声インターフェイスなどのシーンに適しています。
TheWhisper-Large-V3はOpenAI Whisper Large V3モデルの高性能ファインチューニング版で、TheStage AIによって多プラットフォーム(NVIDIA GPUとApple Silicon)のリアルタイム、低遅延、低消費電力の音声テキスト変換推論用に最適化されています。
nineninesix
KaniTTSは、リアルタイム対話型AIアプリケーション向けに最適化された高速、高音質のテキスト音声変換モデルです。2段階パイプラインを用いて、大規模言語モデルと高効率オーディオコーデックを組み合わせ、卓越した速度とオーディオ品質を実現します。このモデルはスペイン語をサポートし、4億のパラメータを持ち、サンプリングレートは22kHzです。
KaniTTSは、リアルタイム対話型人工知能アプリケーション向けに最適化された高速かつ高忠実度のアラビア語テキスト音声変換モデルです。2段階パイプラインアーキテクチャを採用し、大規模言語モデルと効率的なオーディオコーデックを組み合わせることで、卓越した速度とオーディオ品質を実現し、対話型AI、障害者支援、研究など多くの分野の音声合成ニーズを満たすことができます。
KaniTTSは、リアルタイム対話型AIアプリケーション向けに最適化された高速かつ高忠実度のテキスト音声変換モデルです。独自の2段階アーキテクチャにより、大規模言語モデルと効率的な音声コーデックを組み合わせ、低遅延で高品質な音声合成を実現します。リアルタイムファクターは最低0.2で、リアルタイム速度の5倍の高速合成が可能です。
CypressYang
SongBloomは、テキストを音声に変換することに特化した生成モデルで、テキストを生き生きとした音声コンテンツに変換し、ユーザーに新しい音声合成体験を提供します。
KaniTTS Pretrain v0.3は高速で高忠実度のテキストを音声に変換するモデルで、リアルタイム対話型人工知能アプリケーション向けに最適化されています。2段階パイプラインアーキテクチャを採用し、大規模言語モデルと高効率オーディオコーデックを組み合わせて、超低遅延と高品質の音声合成を実現します。
これはMLXフレームワークで最適化されたテキストを音声に変換するモデルで、nineninesixによって開発され、複数の言語の高品質な音声合成をサポートします。
KaniTTSは、リアルタイム対話型AIアプリケーション向けに最適化された高速かつ高忠実度のテキスト音声変換モデルです。2段階のパイプラインアーキテクチャを採用し、大規模言語モデルと効率的なオーディオコーデックを組み合わせることで、卓越した速度と音質を実現し、複数の言語をサポートし、エッジ/サーバーデプロイメントに適しています。
malaysia-ai
Qwen/Qwen3-1.7B-Baseをベースに継続事前学習を行った多言語音声変換とテキスト読み上げモデルで、多言語、複数話者の音声生成と変換機能をサポートします。
ElevenLabs公式のMCPサーバーで、テキストを音声に変換し、音声処理APIとのやり取りが可能です。
MCPプロトコルに基づく抖音動画処理サーバーで、ノーウォーターマーク動画のダウンロード、音声の抽出、テキストの変換機能をサポートします。
MCPビデオダイジェストは、複数のプラットフォームから音声を抽出してテキストに変換するビデオコンテンツ処理サービスで、複数の文字起こしサービスを提供し、柔軟な設定と高い処理能力を備えています。
Zonos TTSとClaudeのMCP統合プロジェクトで、テキストを音声に変換する機能を実現します。
Rime APIに基づくテキストを音声に変換するMCPサーバーで、システムオーディオ再生機能を提供します。
OpenAI APIをベースにした音声文字起こしMCPサービス
Minimax MCPツールは、Minimax AI機能を統合したMCPサーバーの実装で、画像生成とテキスト音声変換機能を提供します。
VOICEPEAKのテキストを音声に変換するMCPサーバーで、音声合成、再生、発音辞書管理などの機能をサポートします。
macOSに組み込まれたsayコマンドを基にしたテキストを音声に変換するMCPサーバー
AllVoiceLab公式MCPサーバーです。テキスト読み上げ、ビデオ翻訳などの強力なAPI対話をサポートし、複数のクライアントに音声生成、ビデオ翻訳、スマートな音声変換サービスを提供します。
これはNode.jsベースのMCPサーバープロジェクトで、Model Context Protocolを通じてAIアシスタントと棒読みちゃん音声合成ソフトウェアを統合し、テキストを音声に変換する機能を提供します。
MCPプロトコルに基づくビデオオーディオテキスト抽出サーバーで、複数のプラットフォームからビデオをダウンロードし、Whisperモデルを利用して音声をテキストに変換する処理をサポートします。
Chatterbox TTSモデルに基づく簡易MCPサーバーで、テキストを音声に変換して自動再生する機能を提供し、リアルタイムの進捗通知と自動モデルロードをサポートしています。
MCP Video Digestは、複数のプラットフォームから音声を抽出してテキストに変換するビデオコンテンツ処理サービスで、複数の文字起こしサービスを提供します。
MCPサーバーとOpenAI TTS SDKに基づくテキストを音声に変換するツールで、ローカル環境での再生をサポートしています。
Claude DesktopやCursor IDEなどにテキストを音声に変換するサービスを提供するMCPサーバー
Groq MCPサーバーはModel Context Protocol(MCP)を通じて高速なモデル推論を提供するサービスで、テキスト生成、音声変換、画像分析、バッチ処理などのさまざまな機能をサポートします。
ElevenLabsテキスト音声変換MCPサービス
ElevenLabs Scribe音声文字変換APIに基づくMCPサーバーの実装で、リアルタイム文字起こし、ファイル文字起こし、コンテキスト管理、双方向ストリーミング通信機能を提供します。
PythonベースのMcpサービスで、Ali CosyVoice1インターフェースを呼び出してテキストを音声に変換します。