最高の音声テキスト変換 AIツールモデル_厳選音声テキスト変換情報

AIニュース

マイクロソフトが VibeVoice-Realtime-0.5B を発表：0.5B のパラメータでほぼリアルタイムの自然な音声生成を実現

マイクロソフトは、リアルタイムのテキストから音声への変換モデルである VibeVoice-Realtime-0.5B をリリースしました。0.5B のパラメータで約300ミリ秒以内に発声を開始し、ほぼリアルタイムでのスムーズな音声生成を実現しています。このモデルは中英両方の言語を対応しており、中国語の表現は英語に比べてやや劣るものの、全体としては高いスムーズさと再現性を保っています。自然な音質が注目されています。

8.1k 29 分前

マイクロソフトが VibeVoice-Realtime-0.5B を発表：0.5B のパラメータでほぼリアルタイムの自然な音声生成を実現

Reverieがインド専用の音声認識モデルをリリースし、Deepgramを上回る性能を実現

Reverie社は、ヒンディ語、英語およびHinglishの混合言語をサポートする新しい音声からテキストへの変換モデルを発表しました。このモデルは、インドの多言語環境に適応しており、300万回以上のAPI呼び出しを処理し、銀行やコールセンターなど業界での高い正確性と迅速な応答能力を示しています。

9.8k 8 時間前

Reverieがインド専用の音声認識モデルをリリースし、Deepgramを上回る性能を実現

新たにオープンソースの音声モデル Maya1：リアルタイムで表現力豊かなテキストから音声への変換を実現

Maya Researchが発表したMaya1テキストから音声への変換モデルは、30億パラメータを備え、単一のGPUでリアルタイムで動作可能です。このモデルは自然言語の説明およびテキスト入力に基づき、制御可能な表現力豊かな音声を生成し、年齢や訛り、またはキャラクターの特徴などを指定して人間の感情と声の詳細を正確に模倣します。

11.6k 23 時間前

StepFun AI、オープンソース音声編集モデルのStep-Audio-EditXを発表し、音声編集の新しい体験を実現

StepFun AIがオープンソースの音声編集モデル「Step-Audio-EditX」を発表。3Bパラメータで音声編集をテキスト編集のようなトークン操作に変換し、直接制御を実現。感情やスタイルの制御が難しい既存システムの課題を解決し、表現力豊かな音声編集を簡易・正確に可能にする。....

10.2k 昨日

AI製品

BlabbyAI 音声からテキストへの変換

BlabbyAIのChrome拡張機能で、音声を迅速かつ正確にテキストに変換し、任意のウェブサイトでの音声入力をサポートします。

音声をテキストに変換

6.7k

Nepvox AI

ネパール初のAIコンテンツ作成プラットフォームで、TTS、STT、テキストから画像への変換をサポートし、500種類以上の音声、100種類以上の言語に対応しています。

コピーライティング生成器

4.9k

Sonic-3

笑いと感情を含むリアルタイムのテキストから音声への変換。

テキストを音声に変換

5.9k

Veo 3.1

Veo 3.1はテキストを1080pの映画ビデオに変換し、一貫したキャラクター、リアルな動作、同期した音声を備えています。

1080pビデオ

8.1k

モデル

GPT-4.1 mini

Openai

$2.8

入力トークン/百万

$11.2

出力トークン/百万

コンテキスト長

Gemini 2.0 Flash-Lite

Google

$0.49

入力トークン/百万

$2.1

出力トークン/百万

コンテキスト長

Grok 4 Fast

Xai

$1.4

入力トークン/百万

$3.5

出力トークン/百万

コンテキスト長

o3 - mini

Openai

$7.7

入力トークン/百万

$30.8

出力トークン/百万

200

コンテキスト長

GPT-5 Codex

Openai

入力トークン/百万

出力トークン/百万

コンテキスト長

Claude 3 Opus

Anthropic

$105

入力トークン/百万

$525

出力トークン/百万

200

コンテキスト長

Gemini 2.0 Flash

Google

$0.7

入力トークン/百万

$2.8

出力トークン/百万

コンテキスト長

Claude Haiku 4.5

Anthropic

入力トークン/百万

$35

出力トークン/百万

200

コンテキスト長

Gemini 2.5 Flash

Google

$2.1

入力トークン/百万

$17.5

出力トークン/百万

コンテキスト長

Claude Sonnet 4.5

Anthropic

$21

入力トークン/百万

$105

出力トークン/百万

200

コンテキスト長

Claude 3 Sonnet

Anthropic

$21

入力トークン/百万

$105

出力トークン/百万

200

コンテキスト長

Gemini 2.5 Flash-Lite

Google

$0.7

入力トークン/百万

$2.8

出力トークン/百万

コンテキスト長

qwen-image-plus

Alibaba

入力トークン/百万

出力トークン/百万

コンテキスト長

Qianfan-Lightning

Baidu

入力トークン/百万

出力トークン/百万

128

コンテキスト長

qwen3-max

Alibaba

入力トークン/百万

$24

出力トークン/百万

256

コンテキスト長

qwen3-coder-plus

Alibaba

入力トークン/百万

$16

出力トークン/百万

コンテキスト長

qwen3-livetranslate-flaltimeash-re-2025-09-22

Alibaba

入力トークン/百万

$240

出力トークン/百万

コンテキスト長

豆包シード翻訳

Bytedance

$1.2

入力トークン/百万

$3.6

出力トークン/百万

コンテキスト長

wan2.5-i2v-preview

Alibaba

入力トークン/百万

出力トークン/百万

コンテキスト長

Qwen3-Next-80B-A3B-Instruct

Alibaba

入力トークン/百万

出力トークン/百万

256

コンテキスト長

MCP

Elevenlabs Mcp

認証済み

ElevenLabs公式のMCPサーバーで、テキストを音声に変換し、音声処理APIとのやり取りが可能です。

python

10.7k

5.0ポイント

Douyin Mcp Server

MCPプロトコルに基づく抖音動画処理サーバーで、ノーウォーターマーク動画のダウンロード、音声の抽出、テキストの変換機能をサポートします。

python

9.6k

3.0ポイント

Mcp Video Digest

MCPビデオダイジェストは、複数のプラットフォームから音声を抽出してテキストに変換するビデオコンテンツ処理サービスで、複数の文字起こしサービスを提供し、柔軟な設定と高い処理能力を備えています。

python

5.2k

2.5ポイント

Zonos TTS

Zonos TTSとClaudeのMCP統合プロジェクトで、テキストを音声に変換する機能を実現します。

typescript

7.6k

2.5ポイント

Rime Text To Speech

Rime APIに基づくテキストを音声に変換するMCPサーバーで、システムオーディオ再生機能を提供します。

typescript

7.6k

2.5ポイント

Audio Transcriber Mcp

OpenAI APIをベースにした音声文字起こしMCPサービス

typescript

8.7k

2.5ポイント

Minimax Mcp Tools

Minimax MCPツールは、Minimax AI機能を統合したMCPサーバーの実装で、画像生成とテキスト音声変換機能を提供します。

javascript

5.4k

2.5ポイント

Voicepeak Mcp

VOICEPEAKのテキストを音声に変換するMCPサーバーで、音声合成、再生、発音辞書管理などの機能をサポートします。

typescript

8.3k

2.5ポイント

Say Mcp Server

macOSに組み込まれたsayコマンドを基にしたテキストを音声に変換するMCPサーバー

typescript

9.1k

2.5ポイント

AllVoiceLab MCP

AllVoiceLab公式MCPサーバーです。テキスト読み上げ、ビデオ翻訳などの強力なAPI対話をサポートし、複数のクライアントに音声生成、ビデオ翻訳、スマートな音声変換サービスを提供します。

python

3.8k

2.5ポイント

Bouyomichan Mcp Nodejs

これはNode.jsベースのMCPサーバープロジェクトで、Model Context Protocolを通じてAIアシスタントと棒読みちゃん音声合成ソフトウェアを統合し、テキストを音声に変換する機能を提供します。

javascript

7.6k

2.5ポイント

Mcp Video Extraction

MCPプロトコルに基づくビデオオーディオテキスト抽出サーバーで、複数のプラットフォームからビデオをダウンロードし、Whisperモデルを利用して音声をテキストに変換する処理をサポートします。

python

8.9k

2.5ポイント

Chatterbox Mcp

Chatterbox TTSモデルに基づく簡易MCPサーバーで、テキストを音声に変換して自動再生する機能を提供し、リアルタイムの進捗通知と自動モデルロードをサポートしています。

python

5.2k

2.5ポイント

Video Digest

MCP Video Digestは、複数のプラットフォームから音声を抽出してテキストに変換するビデオコンテンツ処理サービスで、複数の文字起こしサービスを提供します。

python

6.4k

2.5ポイント

Mcp Tts Say

MCPサーバーとOpenAI TTS SDKに基づくテキストを音声に変換するツールで、ローカル環境での再生をサポートしています。

typescript

2.5ポイント

Mcp Say

Claude DesktopやCursor IDEなどにテキストを音声に変換するサービスを提供するMCPサーバー

8.8k

2.5ポイント

Groq Mcp Server

Groq MCPサーバーはModel Context Protocol（MCP）を通じて高速なモデル推論を提供するサービスで、テキスト生成、音声変換、画像分析、バッチ処理などのさまざまな機能をサポートします。

python

8.6k

2.5ポイント

Elevenlabs Mcp Server

ElevenLabsテキスト音声変換MCPサービス

typescript

5.9k

2.5ポイント

MCP Elevenlab Scribe ASR

ElevenLabs Scribe音声文字変換APIに基づくMCPサーバーの実装で、リアルタイム文字起こし、ファイル文字起こし、コンテキスト管理、双方向ストリーミング通信機能を提供します。

python

6.5k

2.0ポイント

Mcp_cosyvoice

PythonベースのMcpサービスで、Ali CosyVoice1インターフェースを呼び出してテキストを音声に変換します。

python

8.5k

2.0ポイント

未来を力づける、あなたの人工知能ソリューションシンクタンク

English 简体中文繁體中文にほんご

友情链接:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

ビジネス協力サイトマップ

AIニュース

マイクロソフトが VibeVoice-Realtime-0.5B を発表：0.5B のパラメータでほぼリアルタイムの自然な音声生成を実現

Reverieがインド専用の音声認識モデルをリリースし、Deepgramを上回る性能を実現

新たにオープンソースの音声モデル Maya1：リアルタイムで表現力豊かなテキストから音声への変換を実現

StepFun AI、オープンソース音声編集モデルのStep-Audio-EditXを発表し、音声編集の新しい体験を実現

AI製品

BlabbyAI 音声からテキストへの変換

Nepvox AI

Sonic-3

Veo 3.1

モデル

GPT-4.1 mini

Gemini 2.0 Flash-Lite

Grok 4 Fast

o3 - mini

GPT-5 Codex

Claude 3 Opus

Gemini 2.0 Flash

Claude Haiku 4.5

Gemini 2.5 Flash

Claude Sonnet 4.5

Claude 3 Sonnet

Gemini 2.5 Flash-Lite

qwen-image-plus

Qianfan-Lightning

qwen3-max

qwen3-coder-plus

qwen3-livetranslate-flaltimeash-re-2025-09-22

豆包シード翻訳

wan2.5-i2v-preview

Qwen3-Next-80B-A3B-Instruct

Supertonic TTS ONNX

VieNeu TTS 1000h

Dia2 2B

Dia2 1B

Asr 19m V2 En 32b

Arabic TTS Spark

Marvis Tts 100m V0.2 MLX 6bit

Neutts Air Vi

VieNeu TTS

SoulX Podcast 1.7B GGUF

Thewhisper Large V3 Turbo

Thewhisper Large V3

Kani Tts 400m Es

Kani Tts 400m Ar

Kani Tts 400m En

SongBloom_long

Kani Tts 400m 0.3 Pt

Kani Tts 370m MLX

Kani Tts 370m

Qwen3 1.7B Multilingual TTS

MCP

Elevenlabs Mcp

Douyin Mcp Server

Mcp Video Digest

Zonos TTS

Rime Text To Speech

Audio Transcriber Mcp

Minimax Mcp Tools

Voicepeak Mcp

Say Mcp Server

AllVoiceLab MCP

Bouyomichan Mcp Nodejs

Mcp Video Extraction

Chatterbox Mcp

Video Digest

Mcp Tts Say

Mcp Say

Groq Mcp Server

Elevenlabs Mcp Server

MCP Elevenlab Scribe ASR

Mcp_cosyvoice