最高のAI音声機能 AIツールモデル_厳選AI音声機能情報

AIニュース

グーグル・クラスにGeminiポッドキャストツールが登場！教師が1タップで音声授業を生成ポッドキャスト型の授業でZ世代の生徒を惹きつける

GoogleはGeminiモデルを活用し、AI音声機能を教育に導入。教師がテーマや概要を入力するだけで、構造的で魅力的なポッドキャスト風音声教材を自動生成し、Z世代の学習ニーズに対応。....

10.6k 31 分前

バンガロールのスタートアップArrowheadが300万ドルを調達し、音声AIの機能を拡大

バンガロールの音声AIスタートアップArrowheadが、Stellaris Venture Partners主導で300万ドルのシード資金を調達。資金はAIモデルの強化、チーム拡大、金融サービス市場進出に充てられる。....

9.7k 3 時間前

Plaud、新製品のAI音声認識ペンとデスク用会議メモ機器を発売　効率的なオフィス作業を支援

PlaudはCES 2026前に新製品のAI音声認識ペン「Plaud NotePin S」とデスク用メモ機器を発表しました。この新製品は2024年にリリースされた初の針式音声認識ペンの機能を強化し、録音の開始・停止を操作するための物理ボタンが追加され、録音中に重要なポイントをマークできるようになりました。

8.9k 8 時間前

Plaud、新製品のAI音声認識ペンとデスク用会議メモ機器を発売　効率的なオフィス作業を支援

クーアクAIメガネの初回OTA：AI能力がさらに強化され、図文ノートなどの5つの新機能が追加

クーアクAIメガネは12月31日に初回OTAアップデートを完了し、録音メモ、図文ノート、多意的認識と実行、ブルーリング決済およびコミュニティサービスの5つの新機能を追加しました。また、翻訳やスケジュール照会などの既存機能も最適化されました。自社開発の音声強化モデルとハードウェア構成により、録音機能は10メートル範囲での明確な収音と効果的なノイズキャンセリングを実現しています。

12.1k 1 分前

クーアクAIメガネの初回OTA：AI能力がさらに強化され、図文ノートなどの5つの新機能が追加

AI製品

Artta AI

統合型AIクリエイティブプラットフォームで、ビデオ、画像、音楽、音声合成などの機能を統合しています。

AIデザインツール

7.2k

Rekam AI

無料の統合型AI音声創作プラットフォームで、テキストを音声に変換するなどの機能をサポートしています。

テキストを音声に変換

5.3k

Levelr

LevelrはAIオーディオ修復、マスタリング、音声分離と強化などの機能を提供します。

音声生成

4.6k

DialLinkのAI音声エージェント

DialLinkは使いやすいクラウド電話システムで、中小企業やスタートアップ企業にAI音声エージェント機能を提供し、電話を自動化して顧客満足度を向上させ、成長を促進します。

カスタマーサービス

6.2k

モデル

Gemini 2.5 Flash

Google

$2.1

入力トークン/百万

$17.5

出力トークン/百万

コンテキスト長

qwen3-livetranslate-flaltimeash-re-2025-09-22

Alibaba

入力トークン/百万

$240

出力トークン/百万

コンテキスト長

wan2.5-t2v-preview

Alibaba

入力トークン/百万

出力トークン/百万

コンテキスト長

qwen3-omni-flash-realtime

Alibaba

$3.9

入力トークン/百万

$15.2

出力トークン/百万

コンテキスト長

qwen3-omni-30b-a3b-captioner

Alibaba

$15.8

入力トークン/百万

$12.7

出力トークン/百万

コンテキスト長

qwen3-tts-flash

Alibaba

入力トークン/百万

出力トークン/百万

コンテキスト長

qwen3-tts-flash-realtime

Alibaba

入力トークン/百万

出力トークン/百万

コンテキスト長

Doubao-1.5-pro-32k

Bytedance

$0.8

入力トークン/百万

出力トークン/百万

128

コンテキスト長

qwen3-asr-flash

Alibaba

入力トークン/百万

出力トークン/百万

コンテキスト長

DeepSeek-V3.1

Deepseek

入力トークン/百万

$12

出力トークン/百万

128

コンテキスト長

百度スチームエンジン2.0音声映像一体型

Baidu

入力トークン/百万

出力トークン/百万

コンテキスト長

騰訊混元生ビデオ

Tencent

入力トークン/百万

出力トークン/百万

コンテキスト長

Claude Opus 4.1

Anthropic

$105

入力トークン/百万

$525

出力トークン/百万

200

コンテキスト長

GLM-4.5-AirX

Chatglm

入力トークン/百万

出力トークン/百万

128

コンテキスト長

GLM-4.5-Air

Chatglm

入力トークン/百万

出力トークン/百万

128

コンテキスト長

qwen-tts-realtime

Alibaba

$2.4

入力トークン/百万

$12

出力トークン/百万

コンテキスト長

Hunyuan-TurboS-latest

Tencent

$0.8

入力トークン/百万

出力トークン/百万

コンテキスト長

星火医療大モデル - Lite

Iflytek

入力トークン/百万

出力トークン/百万

コンテキスト長

Doubao-1.5-thinking-vision-pro

Bytedance

入力トークン/百万

出力トークン/百万

128

コンテキスト長

Gemma 3n E2B Instructed

Google

入力トークン/百万

出力トークン/百万

コンテキスト長

MCP

Mcp Hfspace

mcp-hfspaceは、Hugging Face Spacesに接続するMCPサーバーで、画像生成、音声処理、ビジュアルモデルなど、さまざまなAI機能をサポートし、Claude Desktopとの統合を簡素化します。

typescript

6.6k

3.5ポイント

Teamspeak Mcp

TeamSpeak MCPは、Model Context Protocolに基づくサーバー制御ツールで、ClaudeなどのAIモデルがTeamSpeak音声サーバーを管理できるように設計されています。ユーザー管理、チャンネル制御、権限設定などの包括的な操作をカバーする39種類の機能ツールを提供し、複数のデプロイ方法（PyPI/Docker/ローカル）をサポートして、TeamSpeakの自動管理を実現します。

python

8.2k

2.5ポイント

ChatGPT X DeepSeek X Grok X Claude Linux APP

ElectronベースのPerplexity AIデスクトップアプリで、完全なシステム権限と機能を備え、クリップボード操作、ドラッグアンドドロップ機能、音声メディア権限などが含まれます。

javascript

6.7k

2.5ポイント

Minimax Mcp Tools

Minimax MCPツールは、Minimax AI機能を統合したMCPサーバーの実装で、画像生成とテキスト音声変換機能を提供します。

javascript

5.6k

2.5ポイント

Mcp Lwh

MCPサービスツールセットで、Hugging FaceとDifyのAIサービスAPI呼び出し機能を提供し、様々なNLP、CV、音声処理タスクをサポートします。

typescript

9.3k

2.5ポイント

Gemini Media Analysis

Google Gemini AIに基づくMCPサーバーで、画像、音声、ビデオ認識機能を提供し、複数の伝送方式とクライアント統合をサポートします。

typescript

7.9k

2.5ポイント

Mcp Audio

mcp - audioはAIO - 2030標準に準拠したMCPプラグインで、音声を文字に変換する機能を提供し、複数の音声フォーマットとAPI呼び出し方法をサポートします。

python

7.7k

2.5ポイント

Bouyomichan Mcp Nodejs

これはNode.jsベースのMCPサーバープロジェクトで、Model Context Protocolを通じてAIアシスタントと棒読みちゃん音声合成ソフトウェアを統合し、テキストを音声に変換する機能を提供します。

javascript

7.8k

2.5ポイント

Message Mcp

Message MCPはAIタスク通知システムで、デスクトップ通知、カスタム音声、モバイルプッシュ、メール通知、APIプッシュ機能を提供し、ユーザーが画面を見続けることなくタスクの完了状態をタイムリーに知ることができます。

typescript

2.5ポイント

Systemprompt Mcp Interview

AIによる面接シナリオを専門に設計されたMCPサーバーで、対話型の音声面接練習機能を提供します。

typescript

7.4k

2.5ポイント

Voice Recorder (Whisper)

Whisperモデルに基づく音声録音と文字起こしのMCPサーバーで、Goose AIの拡張機能として、または独立したサービスとして動作させることができます。

python

8.1k

2.5ポイント

Listenhub Mcp Server

ListenHub公式MCPサーバーで、AIポッドキャスト生成、FlowSpeech音声合成などの機能をサポートし、複数のクライアント設定オプションと複数の転送モードを提供します。

typescript

10.5k

2.5ポイント

Teamspeak Mcp

TeamSpeak MCPは、Model Context Protocolに基づくサービスで、AIモデル（Claudeなど）を通じてTeamSpeakサーバーを制御し、包括的なチャンネル管理、ユーザー権限制御、音声調整などの機能を提供します。

python

4.7k

2.5ポイント

Content Core

Content Coreは、AIによって駆動される多機能なコンテンツ抽出および処理プラットフォームで、ウェブページ、ドキュメント、音声/ビデオなどのさまざまなソースからコンテンツを抽出し、スマートなクリーニング、要約生成などの機能を提供します。コマンドライン、Pythonライブラリ、MCPサービスなどのさまざまな統合方法をサポートしています。

python

5.2k

2.5ポイント