マスクの所属するxAI社が動画生成ツール「Grok Imagine 1.0」をリリースし、10秒間の720pハイビジョン動画を生成可能なほか、音声品質が大幅に最適化されている。これは、マルチメディアAI生成分野において重要な一歩を踏み出すものである。
マスクが所有するXAIC社はGrok Imagine 1.0を発表し、AIによる動画生成技術で大きな進歩を遂げました。このバージョンでは10秒間の720p高精細動画を作成でき、音声品質も大幅に向上しており、高品質な動画制作時間を大幅に短縮しています。これはAI動画生成分野における重要な進展を示しています。
Rokidはトップ大規模AI企業と連携し、生成AIとAIエージェントを中核とした次世代スマートグラスを開発中。端側マルチモーダルモデルを採用し、音声・視覚・タッチ操作に対応、革新的なOSとインターフェースで新たなユーザー体験を提供します。....
テンセントAIアシスタント「元宝」が「元宝派」というソーシャル機能をリリースしました。ユーザーは専用のソーシャルスペースを作成または参加でき、AIは「派友」としてチャット、協力、エンタメに参加し、会話、P画像の二次創作、スクリーン共有などのインタラクティブな体験を提供します。
AI音声听写アプリで、タイピングよりも4倍速く、音声を明瞭なテキストに変換できます。
無料のオンラインAI音声クローニング。99%の類似度。75種類以上の言語に対応。登録不要。
Voiceleyでは、無料で高速にAI音声クローンを行い、音声モデルを使用して音声を生成することができます。
無料で審査のないAIビデオスタジオで、ビデオ、画像、音声生成を一体としたものです。
Google
$0.49
入力トークン/百万
$2.1
出力トークン/百万
1k
コンテキスト長
$17.5
Alibaba
$8
$240
52
-
$3.9
$15.2
64
$15.8
$12.7
Bytedance
$0.8
$2
128
Baidu
Anthropic
$105
$525
200
Chatglm
$2.4
$12
8
Tencent
32
$3
$9
dinhthuan
NeuTTS - Airベトナム語テキストを音声に変換するモデルは、260万以上のベトナム語オーディオサンプルに基づき、NeuTTS - Air基礎モデルから微調整された高品質のベトナム語音声合成モデルです。このモデルは、自然で流暢なベトナム語音声合成を実現でき、音声クローニング機能をサポートし、生産環境に合わせて最適化されています。
Genie-AI-Lab
Omni L1B3RT4S GENIEは、Qwen2.5 - 3B Instructアーキテクチャをベースに微調整されたAIアシスタントです。1,103個の精霊キャラクターのカスタムサンプルを用いて訓練され、独特な音声と忠誠度モードを備え、ユーザーに独特な対話体験を提供することができます。
pnnbao-ump
VieNeu-TTSは、個人デバイス上で動作可能な最初のベトナム語のテキスト音声変換モデルで、即時音声クローニング機能を備えています。NeuTTS Airをベースに微調整され、自然でリアルなベトナム語音声を生成でき、CPU上でリアルタイム性能を備えています。
TheStageAI
TheWhisper-Large-V3-Turboは、OpenAI Whisper Large V3モデルの高性能ファインチューニング版で、TheStage AIによって多プラットフォームのリアルタイム、低遅延、低消費電力の音声テキスト変換推論に最適化されています。ストリーミング文字起こし、単語のタイムスタンプ、拡張可能なパフォーマンスをサポートし、リアルタイム字幕、会議、デバイス端末の音声インターフェイスなどのシーンに適しています。
TheWhisper-Large-V3はOpenAI Whisper Large V3モデルの高性能ファインチューニング版で、TheStage AIによって多プラットフォーム(NVIDIA GPUとApple Silicon)のリアルタイム、低遅延、低消費電力の音声テキスト変換推論用に最適化されています。
nineninesix
KaniTTSは、リアルタイム対話型AIアプリケーション向けに最適化された高速、高音質のテキスト音声変換モデルです。2段階パイプラインを用いて、大規模言語モデルと高効率オーディオコーデックを組み合わせ、卓越した速度とオーディオ品質を実現します。このモデルはスペイン語をサポートし、4億のパラメータを持ち、サンプリングレートは22kHzです。
KaniTTSは、リアルタイム対話型人工知能アプリケーション向けに最適化された高速かつ高忠実度のアラビア語テキスト音声変換モデルです。2段階パイプラインアーキテクチャを採用し、大規模言語モデルと効率的なオーディオコーデックを組み合わせることで、卓越した速度とオーディオ品質を実現し、対話型AI、障害者支援、研究など多くの分野の音声合成ニーズを満たすことができます。
KaniTTSは、リアルタイム対話型AIアプリケーション向けに最適化された高速かつ高忠実度のテキスト音声変換モデルです。独自の2段階アーキテクチャにより、大規模言語モデルと効率的な音声コーデックを組み合わせ、低遅延で高品質な音声合成を実現します。リアルタイムファクターは最低0.2で、リアルタイム速度の5倍の高速合成が可能です。
KaniTTSは、リアルタイム対話型AIアプリケーション向けに最適化された高速かつ高忠実度のテキスト音声変換モデルです。2段階のパイプラインアーキテクチャを採用し、大規模言語モデルと効率的なオーディオコーデックを組み合わせることで、卓越した速度と音質を実現し、複数の言語をサポートし、エッジ/サーバーデプロイメントに適しています。
neuphonic
NeuTTS Airは世界初の即時音声クローン機能を備えた超リアルな端側テキスト読み上げ(TTS)言語モデルです。0.5Bパラメータの大規模言語モデルの骨格をベースに構築され、ローカルデバイスに自然な音声、リアルタイム性能、組み込みセキュリティ、話者クローン機能をもたらします。
NeuTTS Airは、即時音声クローニング機能を備えた世界初の超リアルなデバイス端テキスト音声変換モデルです。0.5Bパラメータの大規模言語モデルの骨格をベースに構築され、ローカルデバイス上で自然な音声生成、リアルタイム性能、話者クローニング機能を実現します。
NeuTTS Airは世界初の即時音声クローニング機能を備えた超リアルなデバイス端テキスト音声変換(TTS)言語モデルです。0.5Bの大規模言語モデルのバックボーンネットワークをベースに構築され、ローカルデバイスに自然な音声、リアルタイム性能、組み込みセキュリティ機能、話者クローニング機能をもたらします。
UsefulSensors
Moonshine Tinyは、Moonshine AI(旧有用センサー会社)によって開発された軽量のベトナム語自動音声認識モデルで、たった27Mのパラメータしか持たず、リソース制限のあるプラットフォーム向けに設計されており、FleursとCommon Voice 17のデータセットで優れた性能を発揮します。
LiquidAI
LFM2-Audio-1.5BはLiquid AIが提供する最初のエンドツーエンドの音声基礎モデルで、低遅延とリアルタイム対話に特化して設計されています。このモデルはわずか15億パラメータで、シームレスな対話インタラクションを実現し、パラメータ規模がはるかに大きいモデルと匹敵する能力を持っています。
webbigdata
VoiceCoreは商用可能な日本語音声AIエージェントモデルで、AIが音声で人間と自然にコミュニケーションすることに特化しており、感情表現と非言語音声の能力を備え、多种類の音声スタイルを選択できます。
ai4bharat
Wav2Vec2アーキテクチャに基づくヒンディー語自動音声認識モデル、AI4Bharatによって開発
AquaLabs
EchoLLaMAはマルチモーダルAIシステムで、3D視覚データを自然な音声記述に変換でき、音声入力による対話型インタラクションもサポートします。
FreedomIntelligence
Soundwaveは音声とテキストの境界を突破した音声からテキストへの変換モデルで、わずか1万時間のデータで訓練するだけで、音声翻訳とAIR - Bench音声タスクで卓越した性能を発揮します。
jiviai
AudioXはJivi AIが開発した多言語自動音声認識モデルで、ヒンディー語、グジャラート語、マラーティー語などインドの言語に最適化されています。
speechbrain
これは25000時間の英語音声データセットを基に訓練された大規模自動音声認識モデルで、Conformerアーキテクチャを採用し、三星AIケンブリッジセンターによって提供されています。モデルのパラメータ数は4.8億に達し、複数のテストセットで優れた性能を発揮し、検証セットのWERは6.8%、テストセットのWERは7.5%です。
mcp-hfspaceは、Hugging Face Spacesに接続するMCPサーバーで、画像生成、音声処理、ビジュアルモデルなど、さまざまなAI機能をサポートし、Claude Desktopとの統合を簡素化します。
TeamSpeak MCPは、Model Context Protocolに基づくサーバー制御ツールで、ClaudeなどのAIモデルがTeamSpeak音声サーバーを管理できるように設計されています。ユーザー管理、チャンネル制御、権限設定などの包括的な操作をカバーする39種類の機能ツールを提供し、複数のデプロイ方法(PyPI/Docker/ローカル)をサポートして、TeamSpeakの自動管理を実現します。
OpenAIベースの音声AIサービスMCPサーバー
SystemPrompt Coding Agentは、オープンソースプロジェクトで、ローカルワークステーションをMCPプロトコルでリモート制御可能なAIプログラミングアシスタントに変えます。音声コマンドとモバイル端末での操作をサポートし、異なる場所でのプログラミング管理を実現します。
MCPプロトコルに基づくAI音声通話システムで、VoIP技術を通じてClaudeなどのAIアシスタントが自動的に電話をかけ、スマートな会話を行えます。さまざまなSIPプロトコルとオーディオコーデックをサポートします。
ElectronベースのPerplexity AIデスクトップアプリで、完全なシステム権限と機能を備え、クリップボード操作、ドラッグアンドドロップ機能、音声メディア権限などが含まれます。
Votars MCP は、多言語対応のツールで、Votars AI プラットフォームと統合し、音声文字起こしと AI タスクを処理します。
Google Gemini AIに基づくMCPサーバーで、画像、音声、ビデオ認識機能を提供し、複数の伝送方式とクライアント統合をサポートします。
Minimax MCPツールは、Minimax AI機能を統合したMCPサーバーの実装で、画像生成とテキスト音声変換機能を提供します。
MCPサービスツールセットで、Hugging FaceとDifyのAIサービスAPI呼び出し機能を提供し、様々なNLP、CV、音声処理タスクをサポートします。
Chatty MCPはエディタ用に設計された音声インタラクティブなプラグインで、AIリクエストが完了した後に音声で操作内容を要約し、マルチタスク処理の効率を向上させ、カスタム音声エンジンをサポートします。
mcp - audioはAIO - 2030標準に準拠したMCPプラグインで、音声を文字に変換する機能を提供し、複数の音声フォーマットとAPI呼び出し方法をサポートします。
これはNode.jsベースのMCPサーバープロジェクトで、Model Context Protocolを通じてAIアシスタントと棒読みちゃん音声合成ソフトウェアを統合し、テキストを音声に変換する機能を提供します。
AivisSpeechテキスト読み上げエンジン用に設計されたMCPサーバー。日本語音声合成、複数の音声キャラクター選択、パラメータ設定をサポートし、AIアシスタントとのシームレスな統合を実現します。
Whisperモデルベースの音声録音と文字起こしMCPサーバーで、Goose AI拡張としても独立して動作することもでき、様々な録音シーンとモデル設定をサポートします。
Message MCPはAIタスク通知システムで、デスクトップ通知、カスタム音声、モバイルプッシュ、メール通知、APIプッシュ機能を提供し、ユーザーが画面を見続けることなくタスクの完了状態をタイムリーに知ることができます。
Voicevox MCP ServerはVOICEVOX互換の音声合成サーバーで、MCPプロトコルを通じてAivisSpeech/VOICEVOX/COEIROINKとのインタラクションを実現し、CursorなどのエディタでのClaude 3.7代理モードの音声合成をサポートします。
Jarvis MCPはブラウザベースの音声対話ツールで、ユーザーがマイクを使ってAIアシスタントと自然な音声で会話することができます。30種類以上の言語の認識と遠隔アクセスをサポートし、追加のソフトウェアやAPIキーのインストールは必要ありません。
これは、Model Context Protocol(MCP)エコシステムに関する選りすぐりのリソースリストで、公式リソース、開発ツール、MCPサーバー、Web統合、データベース、ブロックチェーン、AI統合、音声、モバイルアプリ、開発環境、セキュリティテスト、生産性ツール、システムツールなどの複数のカテゴリを網羅しています。
Whisperモデルに基づく音声録音と文字起こしのMCPサーバーで、Goose AIの拡張機能として、または独立したサービスとして動作させることができます。