最高の音声モード AIツールモデル_厳選音声モード情報

AIニュース

智元ロボットとMiniMaxが提携！身体知能に基づく音声インターフェースのテキストから音声へのワンストップAI技術を人形ロボットに実装

智元ロボットはMiniMaxと戦略的協力関係を結び、MiniMaxが人形ロボット向けにエンドツーエンドのテキストから音声への技術を提供し、ロボットの現実的な状況における自然な対話や感情表現能力を向上させます。協力の焦点は音声合成にあり、高自然度の音声生成や多様な感情的なトーンモデリングなどの技術を活用して、「話せる」スマートエージェントを作り出します。

8.6k 55 分前

OpenAIの新しい音声AI技術の展開　スマートハードウェア製品が登場間近

OpenAIは音声AIモデルの開発を加速し、音声優先のスマートハードウェアに向けて準備を進めている。複数チームを統合し、音声対話技術の向上に注力。現行モデルの精度と速度を改善するため、新世代オーディオモデルの開発を推進中。....

9.4k 15 分前

OpenAIが音声優先の未来に賭ける！複数のチームを統合し、音声モデルを再構築。来年には初のAI音声ハードウェアが登場する可能性

OpenAIは音声AIシステムの再構築にチームを統合し、2026年に音声優先デバイスをリリース予定。ポストスクリーン時代の核として音声インタラクションに注力。....

11.3k 3 分前

クーアクAIメガネの初回OTA：AI能力がさらに強化され、図文ノートなどの5つの新機能が追加

クーアクAIメガネは12月31日に初回OTAアップデートを完了し、録音メモ、図文ノート、多意的認識と実行、ブルーリング決済およびコミュニティサービスの5つの新機能を追加しました。また、翻訳やスケジュール照会などの既存機能も最適化されました。自社開発の音声強化モデルとハードウェア構成により、録音機能は10メートル範囲での明確な収音と効果的なノイズキャンセリングを実現しています。

12.4k 1 時間前

クーアクAIメガネの初回OTA：AI能力がさらに強化され、図文ノートなどの5つの新機能が追加

AI製品

モールス信号翻訳机

テキストからモールス信号へのオンライン翻訳、音声の再生、光信号の表示、WAVファイルのダウンロード、モールス信号表の探索に対応。

翻訳

7.7k

Qwen2.5-Omni

Qwen2.5-Omniは、アリババクラウドの通義千問チームが開発したエンドツーエンドのマルチモーダルモデルであり、テキスト、音声、画像、ビデオ入力をサポートしています。

AIモデル

9.5k

Podscript

ポッドキャストやその他の音声ファイルの文字起こしテキストを生成するためのツールです。複数の言語モデルと音声認識APIに対応しています。

音声をテキストに変換

8.7k

GLM-4-Voice

日本語と英語の音声対話を行うエンドツーエンドモデル

音声認識

10.4k

モデル

Gemini 2.0 Flash-Lite

Google

$0.49

入力トークン/百万

$2.1

出力トークン/百万

コンテキスト長

GPT-4.1 mini

Openai

$2.8

入力トークン/百万

$11.2

出力トークン/百万

コンテキスト長

Grok 4 Fast

Xai

$1.4

入力トークン/百万

$3.5

出力トークン/百万

コンテキスト長

o3 - mini

Openai

$7.7

入力トークン/百万

$30.8

出力トークン/百万

200

コンテキスト長

GPT-5 Codex

Openai

入力トークン/百万

出力トークン/百万

コンテキスト長

Claude 3 Opus

Anthropic

$105

入力トークン/百万

$525

出力トークン/百万

200

コンテキスト長

Gemini 2.0 Flash

Google

$0.7

入力トークン/百万

$2.8

出力トークン/百万

コンテキスト長

Claude Haiku 4.5

Anthropic

入力トークン/百万

$35

出力トークン/百万

200

コンテキスト長

Gemini 2.5 Flash

Google

$2.1

入力トークン/百万

$17.5

出力トークン/百万

コンテキスト長

Claude Sonnet 4.5

Anthropic

$21

入力トークン/百万

$105

出力トークン/百万

200

コンテキスト長

Claude 3 Sonnet

Anthropic

$21

入力トークン/百万

$105

出力トークン/百万

200

コンテキスト長

Gemini 2.5 Flash-Lite

Google

$0.7

入力トークン/百万

$2.8

出力トークン/百万

コンテキスト長

qwen3-vl-plus

Alibaba

入力トークン/百万

$10

出力トークン/百万

256

コンテキスト長

qwen-image-plus

Alibaba

入力トークン/百万

出力トークン/百万

コンテキスト長

Qianfan-Lightning

Baidu

入力トークン/百万

出力トークン/百万

128

コンテキスト長

qwen3-max

Alibaba

入力トークン/百万

$24

出力トークン/百万

256

コンテキスト長

wan2.5-i2i-preview

Alibaba

入力トークン/百万

出力トークン/百万

コンテキスト長

qwen3-coder-plus

Alibaba

入力トークン/百万

$16

出力トークン/百万

コンテキスト長

qwen3-livetranslate-flaltimeash-re-2025-09-22

Alibaba

入力トークン/百万

$240

出力トークン/百万

コンテキスト長

豆包シード翻訳

Bytedance

$1.2

入力トークン/百万

$3.6

出力トークン/百万

コンテキスト長

MCP

Systemprompt Code Orchestrator

SystemPrompt Coding Agentは、オープンソースプロジェクトで、ローカルワークステーションをMCPプロトコルでリモート制御可能なAIプログラミングアシスタントに変えます。音声コマンドとモバイル端末での操作をサポートし、異なる場所でのプログラミング管理を実現します。

typescript

6.4k

2.5ポイント

Mcp Voice Hooks

Claude Codeに音声対話モードを提供するMCPサービスです。ブラウザを通じてハンズフリーの連続双方向音声対話をサポートし、音声認識とテキスト読み上げ機能を備えています。

typescript

4.4k

2.5ポイント

Chatterbox Mcp

Chatterbox TTSモデルに基づく簡易MCPサーバーで、テキストを音声に変換して自動再生する機能を提供し、リアルタイムの進捗通知と自動モデルロードをサポートしています。

python

6.4k

2.5ポイント

Mcp Video Extraction

MCPプロトコルに基づくビデオオーディオテキスト抽出サーバーで、複数のプラットフォームからビデオをダウンロードし、Whisperモデルを利用して音声をテキストに変換する処理をサポートします。

python

9.2k

2.5ポイント

Voicevox Mcp Server

Voicevox MCP ServerはVOICEVOX互換の音声合成サーバーで、MCPプロトコルを通じてAivisSpeech/VOICEVOX/COEIROINKとのインタラクションを実現し、CursorなどのエディタでのClaude 3.7代理モードの音声合成をサポートします。

typescript

8.6k

2.5ポイント

Listenhub Mcp Server

ListenHub公式MCPサーバーで、AIポッドキャスト生成、FlowSpeech音声合成などの機能をサポートし、複数のクライアント設定オプションと複数の転送モードを提供します。

typescript

7.7k

2.5ポイント

Pixeltable Mcp Server

Pixeltableの多モーダルモデルコンテキストプロトコルサーバーセットで、音声、ビデオ、画像、ドキュメントのインデックスとクエリ機能を提供します。

python

6.4k

2.5ポイント

MCPollinations

MCPollinationsは、Model Context Protocol（MCP）に基づくマルチモーダルAIサービスで、Pollinations APIを通じて画像、テキスト、音声を生成することができます。認証不要の軽量サービスを提供し、複数のAIモデルと互換性があり、画像の保存とBase64エンコードの返却をサポートしています。

javascript

6.2k

2.5ポイント

Kokoro MCP Server

Kokoro MCPサーバーは、Pythonをベースに開発された音声合成サービスプロジェクトで、開発環境の構築ガイド、Dockerデプロイメント方案、デバッグツールを提供し、多アーキテクチャデプロイとモジュール化開発をサポートします。

python

7.8k

2.0ポイント

未来を力づける、あなたの人工知能ソリューションシンクタンク

English 简体中文繁體中文にほんご

友情链接:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

ビジネス協力サイトマップ

AIニュース

智元ロボットとMiniMaxが提携！身体知能に基づく音声インターフェースのテキストから音声へのワンストップAI技術を人形ロボットに実装

OpenAIの新しい音声AI技術の展開 スマートハードウェア製品が登場間近

OpenAIが音声優先の未来に賭ける！複数のチームを統合し、音声モデルを再構築。来年には初のAI音声ハードウェアが登場する可能性

クーアクAIメガネの初回OTA：AI能力がさらに強化され、図文ノートなどの5つの新機能が追加

AI製品

モールス信号翻訳机

Qwen2.5-Omni

Podscript

GLM-4-Voice

モデル

Gemini 2.0 Flash-Lite

GPT-4.1 mini

Grok 4 Fast

o3 - mini

GPT-5 Codex

Claude 3 Opus

Gemini 2.0 Flash

Claude Haiku 4.5

Gemini 2.5 Flash

Claude Sonnet 4.5

Claude 3 Sonnet

Gemini 2.5 Flash-Lite

qwen3-vl-plus

qwen-image-plus

Qianfan-Lightning

qwen3-max

wan2.5-i2i-preview

qwen3-coder-plus

qwen3-livetranslate-flaltimeash-re-2025-09-22

豆包シード翻訳

Asr 19m V2 En 32b

Marvis Tts 100m V0.2 MLX 6bit

MOSS TTSD V0.7

Omni Genie

SoulX Podcast 1.7B GGUF

Everos

Svara Tts V1

Ming Flash Omni Preview

Ming UniAudio 16B A3B

Cast 0.7b S2s

Llama 3.2 3B Orpheus Chilean 1795 GGUF

Step Audio 2 Mini

LFM2 Audio 1.5B

Wan2.2 S2V 14B

Qwen2.5 Omni 7B Q4_0 GGUF

Parakeet Tdt 0.6b V3 Coreml

Parakeet Tdt 0.6b V3 Onnx

Whisper Large V3 Turbo MLX

Qwen2.5 Omni 3B GGUF

Openaudio Gguf

MCP

Systemprompt Code Orchestrator

Mcp Voice Hooks

Chatterbox Mcp

Mcp Video Extraction

Voicevox Mcp Server

Listenhub Mcp Server

Pixeltable Mcp Server

MCPollinations

Kokoro MCP Server

OpenAIの新しい音声AI技術の展開　スマートハードウェア製品が登場間近