智元ロボットはMiniMaxと戦略的協力関係を結び、MiniMaxが人形ロボット向けにエンドツーエンドのテキストから音声への技術を提供し、ロボットの現実的な状況における自然な対話や感情表現能力を向上させます。協力の焦点は音声合成にあり、高自然度の音声生成や多様な感情的なトーンモデリングなどの技術を活用して、「話せる」スマートエージェントを作り出します。
OpenAIは音声AIモデルの開発を加速し、音声優先のスマートハードウェアに向けて準備を進めている。複数チームを統合し、音声対話技術の向上に注力。現行モデルの精度と速度を改善するため、新世代オーディオモデルの開発を推進中。....
OpenAIは音声AIシステムの再構築にチームを統合し、2026年に音声優先デバイスをリリース予定。ポストスクリーン時代の核として音声インタラクションに注力。....
クーアクAIメガネは12月31日に初回OTAアップデートを完了し、録音メモ、図文ノート、多意的認識と実行、ブルーリング決済およびコミュニティサービスの5つの新機能を追加しました。また、翻訳やスケジュール照会などの既存機能も最適化されました。自社開発の音声強化モデルとハードウェア構成により、録音機能は10メートル範囲での明確な収音と効果的なノイズキャンセリングを実現しています。
テキストからモールス信号へのオンライン翻訳、音声の再生、光信号の表示、WAVファイルのダウンロード、モールス信号表の探索に対応。
Qwen2.5-Omniは、アリババクラウドの通義千問チームが開発したエンドツーエンドのマルチモーダルモデルであり、テキスト、音声、画像、ビデオ入力をサポートしています。
ポッドキャストやその他の音声ファイルの文字起こしテキストを生成するためのツールです。複数の言語モデルと音声認識APIに対応しています。
日本語と英語の音声対話を行うエンドツーエンドモデル
Google
$0.49
入力トークン/百万
$2.1
出力トークン/百万
1k
コンテキスト長
Openai
$2.8
$11.2
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$1
$10
256
Baidu
128
$6
$24
$4
$16
$8
$240
52
Bytedance
$1.2
$3.6
4
abr-ai
これはApplied Brain Research(ABR)によって開発された、状態空間モデル(SSM)に基づく英語の自動音声認識モデルです。約1900万のパラメータを持ち、英語の音声を効率的かつ正確にテキストに変換することができます。このモデルは複数のベンチマークデータセットで優れた性能を発揮し、平均単語誤り率はわずか10.61%です。リアルタイム音声認識をサポートし、低コストのハードウェアで動作することができます。
Marvis-AI
これはMLXフレームワークに基づいて最適化されたテキスト音声変換モデルで、元のモデルMarvis-AI/marvis-tts-100m-v0.2から変換され、6ビット量子化技術を採用し、Apple Siliconハードウェア用に特別に最適化され、効率的な音声合成能力を提供します。
OpenMOSS-Team
MOSS-TTSDはオープンソースのバイリンガル口語対話合成モデルで、中国語と英語をサポートし、二人の対話脚本を自然で表现力豊かな対話音声に変換できます。音声クローニングをサポートし、単一ラウンドの音声生成時間は最大1700秒に達することができます。
Genie-AI-Lab
Omni L1B3RT4S GENIEは、Qwen2.5 - 3B Instructアーキテクチャをベースに微調整されたAIアシスタントです。1,103個の精霊キャラクターのカスタムサンプルを用いて訓練され、独特な音声と忠誠度モードを備え、ユーザーに独特な対話体験を提供することができます。
mradermacher
SoulX-Podcast-1.7B は、Soul-AILab/SoulX-Podcast-1.7B に基づく静的量子化バージョンで、テキストを音声に変換するタスクに特化しています。このモデルは英語と中国語をサポートし、さまざまなハードウェアとパフォーマンス要件に対応するための複数の量子化バージョンを提供します。
thenexthub
これは多言語処理をサポートするマルチモーダルモデルで、自然言語処理、コード処理、音声処理などの複数の分野をカバーし、自動音声認識、音声要約、音声翻訳、ビジュアル質問応答などの様々なタスクを実行できます。
kenpath
Svara-TTSはインド語を対象としたオープンソースの多言語テキスト読み上げモデルで、19種類の言語(18種類のインド語 + インド英語)をサポートしています。このモデルはOrpheusスタイルの離散音声トークン方式に基づいて構築され、一般的なGPU/CPU上で明瞭で表现力に富み、低遅延の音声合成を実現することを目的としています。
inclusionAI
Ming-flash-omni プレビュー版は、Ling-Flash-2.0の疎なエキスパート混合(MoE)アーキテクチャに基づいて構築されたマルチモーダル大規模モデルで、総パラメータは100Bに達し、各トークンでは6Bのパラメータのみがアクティブ化されます。このモデルはMing-Omniをベースに全面的にアップグレードされ、マルチモーダル理解と生成能力において著しい向上が見られ、特に音声認識、画像生成、およびセグメンテーション編集において優れた性能を発揮します。
銘音通は革新的な統一音声フレームワークで、音声理解、生成、編集機能を一体にまとめています。統一された連続音声分詞器を採用し、エンドツーエンドモデルで意味と音響特徴を効果的に融合させることができ、自然言語指令のみで汎用的で自由形式の音声編集を実現する最初のシステムです。
KrauthammerLab
CAST 0.7Bは、0.7BパラメータのGemma3スタイルの言語モデルに基づいて構築された音声変換言語モデルで、自然な音声オーディオの継続内容を生成することができます。このモデルは、CAST WavTokenizerを使用してエンコード/デコード操作を行い、音声生成タスクに特化しています。
これはmarianbasti/Llama-3.2-3B-Orpheus-Chilean-1795モデルの静的量子化バージョンで、チリとアルゼンチンのスペイン語に特化して最適化されたテキスト音声変換モデルです。さまざまな量子化バージョンを提供し、さまざまなハードウェア要件に対応しています。
stepfun-ai
Step-Audio 2は、業界レベルの音声理解と音声対話のニーズを満たすために設計されたエンドツーエンドのマルチモーダル大規模言語モデルです。高度な音声と音声理解能力、スマート音声対話機能、ツール呼び出しおよびマルチモーダル検索強化生成能力を備え、複数の音声理解と対話のベンチマークテストでトップクラスの性能を発揮しています。
LiquidAI
LFM2-Audio-1.5BはLiquid AIが提供する最初のエンドツーエンドの音声基礎モデルで、低遅延とリアルタイム対話に特化して設計されています。このモデルはわずか15億パラメータで、シームレスな対話インタラクションを実現し、パラメータ規模がはるかに大きいモデルと匹敵する能力を持っています。
Wan-AI
Wan2.2-S2V-14Bは、音声駆動の映画レベルのビデオ生成に特化したハイブリッドエキスパート(MoE)モデルです。入力された音声、参照画像、およびテキストプロンプトに基づいて高品質のビデオコンテンツを生成でき、480Pと720Pの解像度をサポートし、複雑な動き生成と映画レベルの美学効果を備えています。
Frane92O
このモデルはQwen2.5-Omni-7BのGGUF量子化バージョンで、llama.cppツールを使用して元のモデルから変換されました。Qwen2.5-Omni-7Bは70億パラメータのマルチモーダル大規模言語モデルで、テキスト、画像、音声などの複数のモードの入力と出力をサポートします。
FluidInference
parakeet-tdt-0.6b-v3は強力な多言語自動音声認識モデルで、英語、スペイン語、フランス語、ドイツ語などの多くの欧州言語をサポートしています。FastConformer-TDTアーキテクチャに基づき、公開データセットを使用して訓練され、言語を超えた音声認識に効率的な解決策を提供します。
istupakov
NVIDIA Parakeet TDT 0.6B V3は多言語自動音声認識モデルで、パラメータ数は6億で、英語、スペイン語、フランス語、ドイツ語など25種類のヨーロッパ言語をサポートし、音声をテキストに変換できます。
NexaAI
OpenAI Whisperアーキテクチャに基づいて微調整された自動音声認識と音声翻訳モデルで、デコード層の数を減らすことで大幅な速度向上を実現し、同時にオリジナル版に近い認識品質を維持します。
Qwen2.5-Omni-3B-GGUFはエンドツーエンドのマルチモーダルモデルで、テキスト、画像、音声、ビデオなどの複数のモーダル情報を感知し、同時にストリーミング方式でテキストと自然な音声応答を生成することができます。
calcuis
OpenAudioのGGUF量子化バージョンはFishAudioモデルに基づくテキストから音声への合成ツールで、簡単なコマンドで実行でき、便利な音声合成体験を提供します。
SystemPrompt Coding Agentは、オープンソースプロジェクトで、ローカルワークステーションをMCPプロトコルでリモート制御可能なAIプログラミングアシスタントに変えます。音声コマンドとモバイル端末での操作をサポートし、異なる場所でのプログラミング管理を実現します。
Claude Codeに音声対話モードを提供するMCPサービスです。ブラウザを通じてハンズフリーの連続双方向音声対話をサポートし、音声認識とテキスト読み上げ機能を備えています。
Chatterbox TTSモデルに基づく簡易MCPサーバーで、テキストを音声に変換して自動再生する機能を提供し、リアルタイムの進捗通知と自動モデルロードをサポートしています。
MCPプロトコルに基づくビデオオーディオテキスト抽出サーバーで、複数のプラットフォームからビデオをダウンロードし、Whisperモデルを利用して音声をテキストに変換する処理をサポートします。
Voicevox MCP ServerはVOICEVOX互換の音声合成サーバーで、MCPプロトコルを通じてAivisSpeech/VOICEVOX/COEIROINKとのインタラクションを実現し、CursorなどのエディタでのClaude 3.7代理モードの音声合成をサポートします。
ListenHub公式MCPサーバーで、AIポッドキャスト生成、FlowSpeech音声合成などの機能をサポートし、複数のクライアント設定オプションと複数の転送モードを提供します。
Pixeltableの多モーダルモデルコンテキストプロトコルサーバーセットで、音声、ビデオ、画像、ドキュメントのインデックスとクエリ機能を提供します。
MCPollinationsは、Model Context Protocol(MCP)に基づくマルチモーダルAIサービスで、Pollinations APIを通じて画像、テキスト、音声を生成することができます。認証不要の軽量サービスを提供し、複数のAIモデルと互換性があり、画像の保存とBase64エンコードの返却をサポートしています。
Kokoro MCPサーバーは、Pythonをベースに開発された音声合成サービスプロジェクトで、開発環境の構築ガイド、Dockerデプロイメント方案、デバッグツールを提供し、多アーキテクチャデプロイとモジュール化開発をサポートします。