バンガロールの音声AIスタートアップArrowheadが、Stellaris Venture Partners主導で300万ドルのシード資金を調達。資金はAIモデルの強化、チーム拡大、金融サービス市場進出に充てられる。....
PlaudはCES 2026前に新製品のAI音声認識ペン「Plaud NotePin S」とデスク用メモ機器を発表しました。この新製品は2024年にリリースされた初の針式音声認識ペンの機能を強化し、録音の開始・停止を操作するための物理ボタンが追加され、録音中に重要なポイントをマークできるようになりました。
クーアクAIメガネは12月31日に初回OTAアップデートを完了し、録音メモ、図文ノート、多意的認識と実行、ブルーリング決済およびコミュニティサービスの5つの新機能を追加しました。また、翻訳やスケジュール照会などの既存機能も最適化されました。自社開発の音声強化モデルとハードウェア構成により、録音機能は10メートル範囲での明確な収音と効果的なノイズキャンセリングを実現しています。
テンセントのAIアプリ「元宝」のPC版に「録音ペン」機能が新規追加され、オフィスシーンの生産性が強化されました。今回のアップデートにより、モバイル端末とデスクトップ端末の連携が完結し、ユーザーは直接パソコンで録音または音声ファイルをアップロードできるようになり、複数端末間でのデータ移動が不要となり、音声処理の効率が向上しました。
統合型AIクリエイティブプラットフォームで、ビデオ、画像、音楽、音声合成などの機能を統合しています。
無料の統合型AI音声創作プラットフォームで、テキストを音声に変換するなどの機能をサポートしています。
LevelrはAIオーディオ修復、マスタリング、音声分離と強化などの機能を提供します。
DialLinkは使いやすいクラウド電話システムで、中小企業やスタートアップ企業にAI音声エージェント機能を提供し、電話を自動化して顧客満足度を向上させ、成長を促進します。
Google
$2.1
入力トークン/百万
$17.5
出力トークン/百万
1k
コンテキスト長
Alibaba
$8
$240
52
-
$3.9
$15.2
64
$15.8
$12.7
Bytedance
$0.8
$2
128
Deepseek
$4
$12
Baidu
Tencent
Anthropic
$105
$525
200
Chatglm
$2.4
8
32
Iflytek
$3
$9
dinhthuan
NeuTTS - Airベトナム語テキストを音声に変換するモデルは、260万以上のベトナム語オーディオサンプルに基づき、NeuTTS - Air基礎モデルから微調整された高品質のベトナム語音声合成モデルです。このモデルは、自然で流暢なベトナム語音声合成を実現でき、音声クローニング機能をサポートし、生産環境に合わせて最適化されています。
pnnbao-ump
VieNeu-TTSは、個人デバイス上で動作可能な最初のベトナム語のテキスト音声変換モデルで、即時音声クローニング機能を備えています。NeuTTS Airをベースに微調整され、自然でリアルなベトナム語音声を生成でき、CPU上でリアルタイム性能を備えています。
neuphonic
NeuTTS Airは世界初の即時音声クローン機能を備えた超リアルな端側テキスト読み上げ(TTS)言語モデルです。0.5Bパラメータの大規模言語モデルの骨格をベースに構築され、ローカルデバイスに自然な音声、リアルタイム性能、組み込みセキュリティ、話者クローン機能をもたらします。
NeuTTS Airは、即時音声クローニング機能を備えた世界初の超リアルなデバイス端テキスト音声変換モデルです。0.5Bパラメータの大規模言語モデルの骨格をベースに構築され、ローカルデバイス上で自然な音声生成、リアルタイム性能、話者クローニング機能を実現します。
NeuTTS Airは世界初の即時音声クローニング機能を備えた超リアルなデバイス端テキスト音声変換(TTS)言語モデルです。0.5Bの大規模言語モデルのバックボーンネットワークをベースに構築され、ローカルデバイスに自然な音声、リアルタイム性能、組み込みセキュリティ機能、話者クローニング機能をもたらします。
mcp-hfspaceは、Hugging Face Spacesに接続するMCPサーバーで、画像生成、音声処理、ビジュアルモデルなど、さまざまなAI機能をサポートし、Claude Desktopとの統合を簡素化します。
TeamSpeak MCPは、Model Context Protocolに基づくサーバー制御ツールで、ClaudeなどのAIモデルがTeamSpeak音声サーバーを管理できるように設計されています。ユーザー管理、チャンネル制御、権限設定などの包括的な操作をカバーする39種類の機能ツールを提供し、複数のデプロイ方法(PyPI/Docker/ローカル)をサポートして、TeamSpeakの自動管理を実現します。
ElectronベースのPerplexity AIデスクトップアプリで、完全なシステム権限と機能を備え、クリップボード操作、ドラッグアンドドロップ機能、音声メディア権限などが含まれます。
Minimax MCPツールは、Minimax AI機能を統合したMCPサーバーの実装で、画像生成とテキスト音声変換機能を提供します。
Google Gemini AIに基づくMCPサーバーで、画像、音声、ビデオ認識機能を提供し、複数の伝送方式とクライアント統合をサポートします。
MCPサービスツールセットで、Hugging FaceとDifyのAIサービスAPI呼び出し機能を提供し、様々なNLP、CV、音声処理タスクをサポートします。
mcp - audioはAIO - 2030標準に準拠したMCPプラグインで、音声を文字に変換する機能を提供し、複数の音声フォーマットとAPI呼び出し方法をサポートします。
これはNode.jsベースのMCPサーバープロジェクトで、Model Context Protocolを通じてAIアシスタントと棒読みちゃん音声合成ソフトウェアを統合し、テキストを音声に変換する機能を提供します。
Message MCPはAIタスク通知システムで、デスクトップ通知、カスタム音声、モバイルプッシュ、メール通知、APIプッシュ機能を提供し、ユーザーが画面を見続けることなくタスクの完了状態をタイムリーに知ることができます。
Whisperモデルに基づく音声録音と文字起こしのMCPサーバーで、Goose AIの拡張機能として、または独立したサービスとして動作させることができます。
AIによる面接シナリオを専門に設計されたMCPサーバーで、対話型の音声面接練習機能を提供します。
ListenHub公式MCPサーバーで、AIポッドキャスト生成、FlowSpeech音声合成などの機能をサポートし、複数のクライアント設定オプションと複数の転送モードを提供します。
TeamSpeak MCPは、Model Context Protocolに基づくサービスで、AIモデル(Claudeなど)を通じてTeamSpeakサーバーを制御し、包括的なチャンネル管理、ユーザー権限制御、音声調整などの機能を提供します。
Content Coreは、AIによって駆動される多機能なコンテンツ抽出および処理プラットフォームで、ウェブページ、ドキュメント、音声/ビデオなどのさまざまなソースからコンテンツを抽出し、スマートなクリーニング、要約生成などの機能を提供します。コマンドライン、Pythonライブラリ、MCPサービスなどのさまざまな統合方法をサポートしています。
このプロジェクトは、Vapi音声AIとCursorエディタを統合したMCPサーバーを実装し、音声通話、アシスタント管理などの機能を提供します。
Voice Modeは、AIアシスタントに自然な音声対話機能を提供するツールで、MCPプロトコルを介してClaude、ChatGPTなどのLLMとの音声対話をサポートします。
これはMCPサーバープロジェクトで、WhatsAppを通じて音声メッセージを送受信し、AIクライアントのClaude Desktopと対話する機能を提供します。
AivisSpeechのMCPプロトコルサーバーの実装で、AivisSpeech Engineとのインターフェースを提供し、AIアシスタントの音声合成機能をサポートします。
FastAPIとFastMCPに基づくモジュール化されたサーバーで、数学ツール、天気API、ウェブ検索、音声生成、外部API呼び出し機能が統合されており、AIツールの呼び出しとリソースルートをサポートしています。
Resemble AI音声生成APIに基づくサーバー実装で、MCPプロトコルを通じてClaudeとCursorとの統合をサポートし、テキスト読み上げ機能を提供します。