最高の音声制御 AIツールモデル_厳選音声制御情報

AIニュース

バイチューファーストの頂点決戦：Seedance2.0が映画監督級の制御機能を搭載して参入、関連株価が急騰20%

ByteDanceがマルチモーダル動画生成モデル「Seedance2.0」をテスト中。画像・動画・音声・テキスト処理を統合し、「監督級」の制御精度でコンテンツ制作の効率と品質を大幅向上。....

硬いAI動画からさようなら！カーシューKling2.6であなたの声をAIキャラクターに蘇らせる。複雑なダンス動作も完璧に再現

カーシューKling 2.6バージョンは音声と動作の制御の2つの機能を導入し、ネイティブなオーディオ生成を実現し、複雑なアクション処理の精度を向上させました。音声制御により、ビデオに合ったサウンドエフェクト、人の声、音楽を生成でき、カスタマイズ可能なボイスカスタマイズが可能です。

15.9k 10 時間前

硬いAI動画からさようなら！カーシューKling2.6であなたの声をAIキャラクターに蘇らせる。複雑なダンス動作も完璧に再現

xAIが最も速い音声プロキシAPIをリリースし、中国語のリアルタイム検索と感情制御をサポート

xAIはGrok音声プロキシAPIをリリースしました。1分あたり0.05ドルで、非常に高いコストパフォーマンスです。このモデルは音声推論ベンチマークテストで最優秀の結果を達成しており、最初の音声遅延は1秒未満で、競合製品より応答速度が約5倍速いです。中国語を含む数十の言語の自動検出と切り替えをサポートし、リアルタイムウェブ検索と推論機能を統合して、返信の質を向上させます。

13.3k 5 時間前

快手可灵デジタル人間 2.0 が新しく登場：3ステップで話せたり演じたりできる仮想キャラクターを制作

快手可灵数字人2.0が全面リリースされ、ユーザーは3ステップで「話し演技する」デジタルヒューマンビデオを生成可能。新バージョンはキャラクター画像のアップロード、音声追加、表現の記述をサポートし、最大5分の動画を作成できます。旧版に比べ、表現力が大幅に向上し、手の動きと口の形を精密に制御できるようになりました。....

12.3k 38 分前

快手可灵デジタル人間 2.0 が新しく登場：3ステップで話せたり演じたりできる仮想キャラクターを制作

AI製品

InfiniteTalk AI

音声駆動の全身ビデオボイスオーバープラットフォームで、疎なフレーム制御と長シーケンスの画像からビデオへの生成をサポートします。

動画生成

10.3k

ハーモニーAIメールアシスタント

最高のAIアシスタントでGmailを管理し、デバイスに触れることなく音声コマンドで受信トレイを管理できます。

メールアシスタント

6.5k

Zonos TTS

Zonos TTSは、多言語対応、感情制御、ゼロサンプルテキスト音声クローンに対応した高品質なAIテキスト音声変換技術です。

テキストを音声に変換

9.7k

IndexTTS

産業レベルで制御可能な、効率的なゼロショットテキスト音声変換システム

テキストを音声に変換

9.4k

モデル

Gemini 2.0 Flash-Lite

Google

$0.49

入力トークン/百万

$2.1

出力トークン/百万

コンテキスト長

Gemini 2.5 Flash

Google

$2.1

入力トークン/百万

$17.5

出力トークン/百万

コンテキスト長

Claude 3 Sonnet

Anthropic

$21

入力トークン/百万

$105

出力トークン/百万

200

コンテキスト長

qwen3-livetranslate-flaltimeash-re-2025-09-22

Alibaba

入力トークン/百万

$240

出力トークン/百万

コンテキスト長

wan2.5-t2v-preview

Alibaba

入力トークン/百万

出力トークン/百万

コンテキスト長

wan2.5-i2v-preview

Alibaba

入力トークン/百万

出力トークン/百万

コンテキスト長

qwen3-omni-flash-realtime

Alibaba

$3.9

入力トークン/百万

$15.2

出力トークン/百万

コンテキスト長

qwen3-omni-30b-a3b-captioner

Alibaba

$15.8

入力トークン/百万

$12.7

出力トークン/百万

コンテキスト長

qwen3-tts-flash

Alibaba

入力トークン/百万

出力トークン/百万

コンテキスト長

qwen3-tts-flash-realtime

Alibaba

入力トークン/百万

出力トークン/百万

コンテキスト長

Doubao-SeedEdit-3.0-i2i

Bytedance

入力トークン/百万

出力トークン/百万

コンテキスト長

Doubao-1.5-pro-32k

Bytedance

$0.8

入力トークン/百万

出力トークン/百万

128

コンテキスト長

qwen-vl-plus

Alibaba

$0.8

入力トークン/百万

出力トークン/百万

128

コンテキスト長

qwen3-asr-flash

Alibaba

入力トークン/百万

出力トークン/百万

コンテキスト長

Doubao-Seedance-1.0-pro

Bytedance

入力トークン/百万

出力トークン/百万

コンテキスト長

Qwen3-1.7B

Alibaba

入力トークン/百万

出力トークン/百万

コンテキスト長

百度スチームエンジン2.0音声映像一体型

Baidu

入力トークン/百万

出力トークン/百万

コンテキスト長

騰訊混元生ビデオ - ビデオエフェクト

Tencent

入力トークン/百万

出力トークン/百万

コンテキスト長

騰訊混元生ビデオ

Tencent

入力トークン/百万

出力トークン/百万

コンテキスト長

GPT-5 nano

Openai

$0.35

入力トークン/百万

$2.8

出力トークン/百万

400

コンテキスト長

MCP

Systemprompt Code Orchestrator

SystemPrompt Coding Agentは、オープンソースプロジェクトで、ローカルワークステーションをMCPプロトコルでリモート制御可能なAIプログラミングアシスタントに変えます。音声コマンドとモバイル端末での操作をサポートし、異なる場所でのプログラミング管理を実現します。

typescript

7.7k

2.5ポイント

Teamspeak Mcp

TeamSpeak MCPは、Model Context Protocolに基づくサーバー制御ツールで、ClaudeなどのAIモデルがTeamSpeak音声サーバーを管理できるように設計されています。ユーザー管理、チャンネル制御、権限設定などの包括的な操作をカバーする39種類の機能ツールを提供し、複数のデプロイ方法（PyPI/Docker/ローカル）をサポートして、TeamSpeakの自動管理を実現します。

python

7.4k

2.5ポイント