最高の音声AI AIツールモデル_厳選音声AI情報

AIニュース

マスクが発表：Grok Imagine 1.0が正式リリース AI動画生成が720p時代へ

マスクの所属するxAI社が動画生成ツール「Grok Imagine 1.0」をリリースし、10秒間の720pハイビジョン動画を生成可能なほか、音声品質が大幅に最適化されている。これは、マルチメディアAI生成分野において重要な一歩を踏み出すものである。

11.2k たった今

マスクが発表：Grok Imagine 1.0が正式リリース AI動画生成が720p時代へ

マスクのXAICがGrok Imagine 1.0を発表：動画生成に新時代が訪れました！

マスクが所有するXAIC社はGrok Imagine 1.0を発表し、AIによる動画生成技術で大きな進歩を遂げました。このバージョンでは10秒間の720p高精細動画を作成でき、音声品質も大幅に向上しており、高品質な動画制作時間を大幅に短縮しています。これはAI動画生成分野における重要な進展を示しています。

9.1k 1 分前

Rokid がトップクラスのAI企業と協力し、未来感たっぷりなスマートグラスを発表！

Rokidはトップ大規模AI企業と連携し、生成AIとAIエージェントを中核とした次世代スマートグラスを開発中。端側マルチモーダルモデルを採用し、音声・視覚・タッチ操作に対応、革新的なOSとインターフェースで新たなユーザー体験を提供します。....

10.2k 51 分前

テンセント元宝アプリの元宝派が公開テスト開始：AIソーシャルに深く関わる、音声視覚エコシステムを統合

テンセントAIアシスタント「元宝」が「元宝派」というソーシャル機能をリリースしました。ユーザーは専用のソーシャルスペースを作成または参加でき、AIは「派友」としてチャット、協力、エンタメに参加し、会話、P画像の二次創作、スクリーン共有などのインタラクティブな体験を提供します。

9.9k 8 分前

AI製品

Genspark Speakly

AI音声听写アプリで、タイピングよりも4倍速く、音声を明瞭なテキストに変換できます。

音声をテキストに変換

6.9k

kikivoice.ai

無料のオンラインAI音声クローニング。99％の類似度。75種類以上の言語に対応。登録不要。

音声クローニング

4.4k

Voiceley

Voiceleyでは、無料で高速にAI音声クローンを行い、音声モデルを使用して音声を生成することができます。

音声クローニング

7.6k

VideoAny

無料で審査のないAIビデオスタジオで、ビデオ、画像、音声生成を一体としたものです。

動画生成

5.3k

モデル

Gemini 2.0 Flash-Lite

Google

$0.49

入力トークン/百万

$2.1

出力トークン/百万

コンテキスト長

Gemini 2.5 Flash

Google

$2.1

入力トークン/百万

$17.5

出力トークン/百万

コンテキスト長

qwen3-livetranslate-flaltimeash-re-2025-09-22

Alibaba

入力トークン/百万

$240

出力トークン/百万

コンテキスト長

wan2.5-t2v-preview

Alibaba

入力トークン/百万

出力トークン/百万

コンテキスト長

wan2.5-i2v-preview

Alibaba

入力トークン/百万

出力トークン/百万

コンテキスト長

qwen3-omni-flash-realtime

Alibaba

$3.9

入力トークン/百万

$15.2

出力トークン/百万

コンテキスト長

qwen3-omni-30b-a3b-captioner

Alibaba

$15.8

入力トークン/百万

$12.7

出力トークン/百万

コンテキスト長

qwen3-tts-flash

Alibaba

入力トークン/百万

出力トークン/百万

コンテキスト長

qwen3-tts-flash-realtime

Alibaba

入力トークン/百万

出力トークン/百万

コンテキスト長

Doubao-1.5-pro-32k

Bytedance

$0.8

入力トークン/百万

出力トークン/百万

128

コンテキスト長

qwen3-asr-flash

Alibaba

入力トークン/百万

出力トークン/百万

コンテキスト長

百度スチームエンジン2.0音声映像一体型

Baidu

入力トークン/百万

出力トークン/百万

コンテキスト長

Claude Opus 4.1

Anthropic

$105

入力トークン/百万

$525

出力トークン/百万

200

コンテキスト長

GLM-4.5-AirX

Chatglm

入力トークン/百万

出力トークン/百万

128

コンテキスト長

GLM-4.5-Air

Chatglm

入力トークン/百万

出力トークン/百万

128

コンテキスト長

qwen-tts-realtime

Alibaba

$2.4

入力トークン/百万

$12

出力トークン/百万

コンテキスト長

Hunyuan-TurboS-latest

Tencent

$0.8

入力トークン/百万

出力トークン/百万

コンテキスト長

Doubao-1.5-thinking-vision-pro

Bytedance

入力トークン/百万

出力トークン/百万

128

コンテキスト長

Gemma 3n E2B Instructed LiteRT (Preview)

Google

入力トークン/百万

出力トークン/百万

コンテキスト長

Gemma 3n E2B Instructed

Google

入力トークン/百万

出力トークン/百万

コンテキスト長

MCP

Mcp Hfspace

mcp-hfspaceは、Hugging Face Spacesに接続するMCPサーバーで、画像生成、音声処理、ビジュアルモデルなど、さまざまなAI機能をサポートし、Claude Desktopとの統合を簡素化します。

typescript

5.7k

3.5ポイント

Teamspeak Mcp

TeamSpeak MCPは、Model Context Protocolに基づくサーバー制御ツールで、ClaudeなどのAIモデルがTeamSpeak音声サーバーを管理できるように設計されています。ユーザー管理、チャンネル制御、権限設定などの包括的な操作をカバーする39種類の機能ツールを提供し、複数のデプロイ方法（PyPI/Docker/ローカル）をサポートして、TeamSpeakの自動管理を実現します。

python

8.2k

2.5ポイント

Mcp Voice

OpenAIベースの音声AIサービスMCPサーバー

音声処理

7.6k

2.5ポイント

Systemprompt Code Orchestrator

SystemPrompt Coding Agentは、オープンソースプロジェクトで、ローカルワークステーションをMCPプロトコルでリモート制御可能なAIプログラミングアシスタントに変えます。音声コマンドとモバイル端末での操作をサポートし、異なる場所でのプログラミング管理を実現します。

typescript

6.6k

2.5ポイント

Callcenter.js Mcp

MCPプロトコルに基づくAI音声通話システムで、VoIP技術を通じてClaudeなどのAIアシスタントが自動的に電話をかけ、スマートな会話を行えます。さまざまなSIPプロトコルとオーディオコーデックをサポートします。

typescript

2.5ポイント

ChatGPT X DeepSeek X Grok X Claude Linux APP

ElectronベースのPerplexity AIデスクトップアプリで、完全なシステム権限と機能を備え、クリップボード操作、ドラッグアンドドロップ機能、音声メディア権限などが含まれます。

javascript

9.3k

2.5ポイント

Votars

Votars MCP は、多言語対応のツールで、Votars AI プラットフォームと統合し、音声文字起こしと AI タスクを処理します。

5.6k

2.5ポイント

Gemini Media Analysis

Google Gemini AIに基づくMCPサーバーで、画像、音声、ビデオ認識機能を提供し、複数の伝送方式とクライアント統合をサポートします。

typescript

8.2k

2.5ポイント

Minimax Mcp Tools

Minimax MCPツールは、Minimax AI機能を統合したMCPサーバーの実装で、画像生成とテキスト音声変換機能を提供します。

javascript

6.8k

2.5ポイント

Mcp Lwh

MCPサービスツールセットで、Hugging FaceとDifyのAIサービスAPI呼び出し機能を提供し、様々なNLP、CV、音声処理タスクをサポートします。

typescript

9.4k

2.5ポイント

Chatty Mcp

Chatty MCPはエディタ用に設計された音声インタラクティブなプラグインで、AIリクエストが完了した後に音声で操作内容を要約し、マルチタスク処理の効率を向上させ、カスタム音声エンジンをサポートします。

typescript

6.6k

2.5ポイント

Mcp Audio

mcp - audioはAIO - 2030標準に準拠したMCPプラグインで、音声を文字に変換する機能を提供し、複数の音声フォーマットとAPI呼び出し方法をサポートします。

python

7.7k

2.5ポイント

Bouyomichan Mcp Nodejs

これはNode.jsベースのMCPサーバープロジェクトで、Model Context Protocolを通じてAIアシスタントと棒読みちゃん音声合成ソフトウェアを統合し、テキストを音声に変換する機能を提供します。

javascript

2.5ポイント

Mcp Simple Aivisspeech

AivisSpeechテキスト読み上げエンジン用に設計されたMCPサーバー。日本語音声合成、複数の音声キャラクター選択、パラメータ設定をサポートし、AIアシスタントとのシームレスな統合を実現します。

typescript

4.7k

2.5ポイント

Voice Recorder Mcp Server

Whisperモデルベースの音声録音と文字起こしMCPサーバーで、Goose AI拡張としても独立して動作することもでき、様々な録音シーンとモデル設定をサポートします。

python

9.7k

2.5ポイント

Message Mcp

Message MCPはAIタスク通知システムで、デスクトップ通知、カスタム音声、モバイルプッシュ、メール通知、APIプッシュ機能を提供し、ユーザーが画面を見続けることなくタスクの完了状態をタイムリーに知ることができます。

typescript

6.1k

2.5ポイント

Voicevox Mcp Server

Voicevox MCP ServerはVOICEVOX互換の音声合成サーバーで、MCPプロトコルを通じてAivisSpeech/VOICEVOX/COEIROINKとのインタラクションを実現し、CursorなどのエディタでのClaude 3.7代理モードの音声合成をサポートします。

typescript

2.5ポイント

Jarvis Mcp

Jarvis MCPはブラウザベースの音声対話ツールで、ユーザーがマイクを使ってAIアシスタントと自然な音声で会話することができます。30種類以上の言語の認識と遠隔アクセスをサポートし、追加のソフトウェアやAPIキーのインストールは必要ありません。

typescript

5.4k

2.5ポイント

Awesome_mcp

これは、Model Context Protocol（MCP）エコシステムに関する選りすぐりのリソースリストで、公式リソース、開発ツール、MCPサーバー、Web統合、データベース、ブロックチェーン、AI統合、音声、モバイルアプリ、開発環境、セキュリティテスト、生産性ツール、システムツールなどの複数のカテゴリを網羅しています。

人工知能チャットボット

8.6k

2.5ポイント

Voice Recorder (Whisper)

Whisperモデルに基づく音声録音と文字起こしのMCPサーバーで、Goose AIの拡張機能として、または独立したサービスとして動作させることができます。

python

9.2k

2.5ポイント

未来を力づける、あなたの人工知能ソリューションシンクタンク

English 简体中文繁體中文にほんご

友情链接:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

ビジネス協力サイトマップ

AIニュース

マスクが発表：Grok Imagine 1.0が正式リリース AI動画生成が720p時代へ

マスクのXAICがGrok Imagine 1.0を発表：動画生成に新時代が訪れました！

Rokid がトップクラスのAI企業と協力し、未来感たっぷりなスマートグラスを発表！

テンセント元宝アプリの元宝派が公開テスト開始：AIソーシャルに深く関わる、音声視覚エコシステムを統合

AI製品

Genspark Speakly

kikivoice.ai

Voiceley

VideoAny

モデル

Gemini 2.0 Flash-Lite

Gemini 2.5 Flash

qwen3-livetranslate-flaltimeash-re-2025-09-22

wan2.5-t2v-preview

wan2.5-i2v-preview

qwen3-omni-flash-realtime

qwen3-omni-30b-a3b-captioner

qwen3-tts-flash

qwen3-tts-flash-realtime

Doubao-1.5-pro-32k

qwen3-asr-flash

百度スチームエンジン2.0音声映像一体型

Claude Opus 4.1

GLM-4.5-AirX

GLM-4.5-Air

qwen-tts-realtime

Hunyuan-TurboS-latest

Doubao-1.5-thinking-vision-pro

Gemma 3n E2B Instructed LiteRT (Preview)

Gemma 3n E2B Instructed

Neutts Air Vi

Omni Genie

VieNeu TTS

Thewhisper Large V3 Turbo

Thewhisper Large V3

Kani Tts 400m Es

Kani Tts 400m Ar

Kani Tts 400m En

Kani Tts 370m

Neutts Air Q8 Gguf

Neutts Air Q4 Gguf

Neutts Air

Moonshine Tiny Vi

LFM2 Audio 1.5B

VoiceCore

Indicwav2vec Hindi

EchoLLaMA 1B

Soundwave

AudioX North V1

Asr Conformer Loquacious

MCP

Mcp Hfspace

Teamspeak Mcp

Mcp Voice

Systemprompt Code Orchestrator

Callcenter.js Mcp

ChatGPT X DeepSeek X Grok X Claude Linux APP

Votars

Gemini Media Analysis

Minimax Mcp Tools

Mcp Lwh

Chatty Mcp

Mcp Audio

Bouyomichan Mcp Nodejs

Mcp Simple Aivisspeech

Voice Recorder Mcp Server

Message Mcp

Voicevox Mcp Server

Jarvis Mcp

Awesome_mcp

Voice Recorder (Whisper)