最高の音声変換 AIツールモデル_厳選音声変換情報

AIニュース

ビデオの暗データを掘り起こせ！グーグル元従業員が設立したInfiniMindが企業にPB級のビデオ資産を解禁

東京のスタートアップ企業InfiniMindは580万ドルのシード資金調達を成功させた。元グーグル社員が設立した同社は、膨大な未利用のビデオや音声などの「暗データ」を検索可能な構造化ビジネスインテリジェンスに変換するAIインフラを開発し、企業のデータ処理の課題に対応している。

11.5k 昨日

ビデオの暗データを掘り起こせ！グーグル元従業員が設立したInfiniMindが企業にPB級のビデオ資産を解禁

0.2秒未満の遅延！Mistral AI、Voxtral Transcribe 2音声モデルをリリース。中国語リアルタイム変換をサポート

フランスのMistral AIがVoxtral Transcribe2音声認識モデルシリーズを発表。リアルタイム転写モデルは40億パラメータで、低遅延・低コストを実現。....

12.9k 4 時間前

0.2秒未満の遅延！Mistral AI、Voxtral Transcribe 2音声モデルをリリース。中国語リアルタイム変換をサポート

グーグルが医療AIオープンソースエコシステムに追加投資：MedGemma 1.5は医学画像の能力を強化し、同時に音声変換モデルであるMedASRをリリース

新たなオープンソース医療大規模モデル「MedGemma 1.5」と臨床音声認識モデル「MedASR」を発表。MedGemma 1.5はGemmaシリーズを基盤に、医療画像理解を強化し、テキスト診療記録・検査報告・医学文献・X線・CTなどの画像データを処理し、初期スクリーニングと診断を支援します。....

11.6k 9 時間前

AI記録システムの幻聴アニメーション、米ユタ州警察の報告書に警官がカエルに変身

米国ユタ州の警察でAI通話記録システムをテスト中、アルゴリズムの誤認識により「警察官がカエルに変身」という荒唐無稽な報告書が生成された。音声文字変換による事務負担軽減を目指したシステムだが、法執行現場でのAI技術の限界が露呈した事例となった。....

8.8k 02-20

AI製品

LipsyncX

AI唇同期動画生成ツールで、長い音声をリアルな口パク同期動画に変換できます。

動画生成

4.6k

Dictato

Mac用のプライベートな音声をテキストに変換するアプリで、80msの低遅延、3つのエンジンから選択可能、ローカルで処理

音声をテキストに変換

7.7k

CineThink

Seedance 2.0はテキストや画像などを迅速に2Kの同期音声付きビデオに変換できます。

動画生成

5.7k

AI Seedance 2.0 Video

バイトドゥンのSeedance 2.0は、テキスト、画像、音声を映画レベルのAIビデオに変換します。

動画生成

5.1k

モデル

Gemini 2.0 Flash-Lite

Google

$0.49

入力トークン/百万

$2.1

出力トークン/百万

コンテキスト長

Gemini 2.5 Flash

Google

$2.1

入力トークン/百万

$17.5

出力トークン/百万

コンテキスト長

qwen3-livetranslate-flaltimeash-re-2025-09-22

Alibaba

入力トークン/百万

$240

出力トークン/百万

コンテキスト長

wan2.5-t2v-preview

Alibaba

入力トークン/百万

出力トークン/百万

コンテキスト長

wan2.5-i2v-preview

Alibaba

入力トークン/百万

出力トークン/百万

コンテキスト長

qwen3-omni-flash-realtime

Alibaba

$3.9

入力トークン/百万

$15.2

出力トークン/百万

コンテキスト長

qwen3-omni-30b-a3b-captioner

Alibaba

$15.8

入力トークン/百万

$12.7

出力トークン/百万

コンテキスト長

qwen3-tts-flash

Alibaba

入力トークン/百万

出力トークン/百万

コンテキスト長

qwen3-tts-flash-realtime

Alibaba

入力トークン/百万

出力トークン/百万

コンテキスト長

Doubao-1.5-pro-32k

Bytedance

$0.8

入力トークン/百万

出力トークン/百万

128

コンテキスト長

qwen3-asr-flash

Alibaba

入力トークン/百万

出力トークン/百万

コンテキスト長

百度スチームエンジン2.0音声映像一体型

Baidu

入力トークン/百万

出力トークン/百万

コンテキスト長

騰訊混元生ビデオ

Tencent

入力トークン/百万

出力トークン/百万

コンテキスト長

qwen-tts-realtime

Alibaba

$2.4

入力トークン/百万

$12

出力トークン/百万

コンテキスト長

Hunyuan-TurboS-latest

Tencent

$0.8

入力トークン/百万

出力トークン/百万

コンテキスト長

Wan2.1-T2V-1.3B

Alibaba

入力トークン/百万

出力トークン/百万

コンテキスト長

Wan2.1-I2V-14B-480P

Alibaba

入力トークン/百万

出力トークン/百万

コンテキスト長

Doubao-1.5-thinking-vision-pro

Bytedance

入力トークン/百万

出力トークン/百万

128

コンテキスト長

Gemma 3n E2B Instructed LiteRT (Preview)

Google

入力トークン/百万

出力トークン/百万

コンテキスト長

Gemma 3n E2B Instructed

Google

入力トークン/百万

出力トークン/百万

コンテキスト長

MCP

Elevenlabs Mcp

認証済み

ElevenLabs公式のMCPサーバーで、テキストを音声に変換し、音声処理APIとのやり取りが可能です。

python

12.7k

5.0ポイント

Markdownify Mcp

Markdownifyは、PDF、画像、音声などのさまざまな形式やウェブページのコンテンツをMarkdown形式に変換することができる多機能ファイル変換サービスです。

typescript

28.9k

5.0ポイント

Douyin Mcp Server

MCPプロトコルに基づく抖音動画処理サーバーで、ノーウォーターマーク動画のダウンロード、音声の抽出、テキストの変換機能をサポートします。

python

11.2k

3.0ポイント

Mcp Video Digest

MCPビデオダイジェストは、複数のプラットフォームから音声を抽出してテキストに変換するビデオコンテンツ処理サービスで、複数の文字起こしサービスを提供し、柔軟な設定と高い処理能力を備えています。

python

6.7k

2.5ポイント

Zonos TTS

Zonos TTSとClaudeのMCP統合プロジェクトで、テキストを音声に変換する機能を実現します。

typescript

2.5ポイント

Rime Text To Speech

Rime APIに基づくテキストを音声に変換するMCPサーバーで、システムオーディオ再生機能を提供します。

typescript

9.7k

2.5ポイント

Minimax Mcp Tools

Minimax MCPツールは、Minimax AI機能を統合したMCPサーバーの実装で、画像生成とテキスト音声変換機能を提供します。

javascript

7.2k

2.5ポイント

AllVoiceLab MCP

AllVoiceLab公式MCPサーバーです。テキスト読み上げ、ビデオ翻訳などの強力なAPI対話をサポートし、複数のクライアントに音声生成、ビデオ翻訳、スマートな音声変換サービスを提供します。

python

4.2k

2.5ポイント

Mcp Audio

mcp - audioはAIO - 2030標準に準拠したMCPプラグインで、音声を文字に変換する機能を提供し、複数の音声フォーマットとAPI呼び出し方法をサポートします。

python

8.5k

2.5ポイント

Ms Lucidia Voice Gateway Mcp

Windowsのネイティブ音声サービスに基づくテキスト読み上げと音声認識のMCPサーバーで、外部APIに依存する必要はありません。

typescript

7.7k

2.5ポイント

Voicepeak Mcp

VOICEPEAKのテキストを音声に変換するMCPサーバーで、音声合成、再生、発音辞書管理などの機能をサポートします。

typescript

8.9k

2.5ポイント

Say Mcp Server

macOSに組み込まれたsayコマンドを基にしたテキストを音声に変換するMCPサーバー

typescript

10.7k

2.5ポイント

Chatterbox Mcp

Chatterbox TTSモデルに基づく簡易MCPサーバーで、テキストを音声に変換して自動再生する機能を提供し、リアルタイムの進捗通知と自動モデルロードをサポートしています。

python

5.6k

2.5ポイント

Bouyomichan Mcp Nodejs

これはNode.jsベースのMCPサーバープロジェクトで、Model Context Protocolを通じてAIアシスタントと棒読みちゃん音声合成ソフトウェアを統合し、テキストを音声に変換する機能を提供します。

javascript

9.3k

2.5ポイント

Mcp Video Extraction

MCPプロトコルに基づくビデオオーディオテキスト抽出サーバーで、複数のプラットフォームからビデオをダウンロードし、Whisperモデルを利用して音声をテキストに変換する処理をサポートします。

python

8.9k

2.5ポイント

Mcp Tts Say

MCPサーバーとOpenAI TTS SDKに基づくテキストを音声に変換するツールで、ローカル環境での再生をサポートしています。

typescript

9.7k

2.5ポイント

Markdownify

Markdownify MCP UTF - 8拡張版は、多言語コンテンツの変換をサポートするMarkdown処理サービスで、UTF - 8エンコーディングのサポートを最適化し、PDF/画像/音声・動画/Office文書などのさまざまな形式のMarkdown変換機能を提供し、Windowsシステムに特化した最適化が行われています。

typescript

8.9k

2.5ポイント