Best 语音转文本 AI Tools & Models - Premium 语音转文本 News

AI News

Gemini TTS 2.5正式上线：Google推情绪级语音，24语种+多角色一键切换

Google推出Gemini 2.5 Flash与Pro文本转语音预览模型，全面升级5月旧版。新模型支持24种语言的多角色对话，具备“情绪级”表达和自适应节奏功能，用户可一键切换“欢快乐观”或“阴郁严肃”等音色。开发者现可在Google AI Studio与Playground免费测试，预计2025年第一季度投入生产，适用于有声书、游戏NPC及本地化课程等场景。

12.9k 33 minutes ago

Gemini TTS 2.5正式上线：Google推情绪级语音，24语种+多角色一键切换

Pebble 创始人推出售价 75 美元的 AI 智能戒指，轻松记录灵感与提醒

Pebble创始人推出AI智能戒指Index01，售价75美元。用户按压戒指按钮即可快速记录备忘，无需依赖始终在线的AI设备。戒指通过手机上的开源语音转文本模型实现AI功能。

11.2k 2 days ago

Pebble 创始人推出售价 75 美元的 AI 智能戒指，轻松记录灵感与提醒

微软推出 VibeVoice-Realtime：实时文本转语音新模型，助力互动式应用

微软推出轻量级实时文本转语音模型VibeVoice-Realtime-0.5B，支持流式输入与长篇输出，适用于代理应用和实时数据讲述。该模型能在约300毫秒内开始输出语音，配合语言模型生成回答。其框架通过连续语音标记实现下一个标记的扩散。

12.7k 1 hours ago

微软推出 VibeVoice-Realtime：实时文本转语音新模型，助力互动式应用

微软发布 VibeVoice 0.5B：仅0.5B参数却实现300毫秒实时开口

微软推出实时文本转语音模型VibeVoice-Realtime-0.5B，仅0.5B参数即可实现接近实时的语音生成，最快300毫秒内开始发声，支持中英文实时转录与语音生成，中文表现略逊于英文，但整体流畅度和还原度高，音质自然。

11.7k 21 hours ago

AI Products

Qwen3-TTS

Qwen3-TTS

先进的文本转语音模型，提供高质量的语音合成服务。

文本转声音

Nepvox AI

Nepvox AI

尼泊尔首个AI内容创作平台，支持TTS、STT、文本转图像，有500+语音、100+语言。

文案生成器

Sonic-3

Sonic-3

实时文本转语音，带有笑声和情感。

文本转声音

BlabbyAI Speech to text

BlabbyAI Speech to text

BlabbyAI Chrome扩展，快速准确将语音转换为文本，支持任意网站语音输入。

语音转文本

Models

GPT-4.1 mini

Openai

GPT-4.1 mini

$2.8

Input tokens/M

$11.2

Output tokens/M

1k

Context Length

Gemini 2.0 Flash-Lite

Google

Gemini 2.0 Flash-Lite

$0.49

Input tokens/M

$2.1

Output tokens/M

1k

Context Length

Grok 4 Fast

Xai

Grok 4 Fast

$1.4

Input tokens/M

$3.5

Output tokens/M

2k

Context Length

o3-mini

Openai

o3-mini

$7.7

Input tokens/M

$30.8

Output tokens/M

200

Context Length

GPT-5 Codex

Openai

GPT-5 Codex

-

Input tokens/M

-

Output tokens/M

-

Context Length

Claude 3 Opus

Anthropic

Claude 3 Opus

$105

Input tokens/M

$525

Output tokens/M

200

Context Length

Gemini 2.0 Flash

Google

Gemini 2.0 Flash

$0.7

Input tokens/M

$2.8

Output tokens/M

1k

Context Length

Claude Haiku 4.5

Anthropic

Claude Haiku 4.5

$7

Input tokens/M

$35

Output tokens/M

200

Context Length

Gemini 2.5 Flash

Google

Gemini 2.5 Flash

$2.1

Input tokens/M

$17.5

Output tokens/M

1k

Context Length

Claude Sonnet 4.5

Anthropic

Claude Sonnet 4.5

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Claude 3 Sonnet

Anthropic

Claude 3 Sonnet

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Gemini 2.5 Flash-Lite

Google

Gemini 2.5 Flash-Lite

$0.7

Input tokens/M

$2.8

Output tokens/M

1k

Context Length

qwen-image-plus

Alibaba

qwen-image-plus

-

Input tokens/M

-

Output tokens/M

-

Context Length

qwen3-coder-plus

Alibaba

qwen3-coder-plus

$4

Input tokens/M

$16

Output tokens/M

1k

Context Length

Qianfan-Lightning

Baidu

Qianfan-Lightning

-

Input tokens/M

-

Output tokens/M

128

Context Length

qwen3-max

Alibaba

qwen3-max

$6

Input tokens/M

$24

Output tokens/M

256

Context Length

qwen3-livetranslate-flaltimeash-re-2025-09-22

Alibaba

qwen3-livetranslate-flaltimeash-re-2025-09-22

$8

Input tokens/M

$240

Output tokens/M

52

Context Length

Doubao-Seed-Translation

Bytedance

Doubao-Seed-Translation

$1.2

Input tokens/M

$3.6

Output tokens/M

4

Context Length

Qwen3-Next-80B-A3B-Instruct

Alibaba

Qwen3-Next-80B-A3B-Instruct

$2

Input tokens/M

-

Output tokens/M

256

Context Length

qwen3-omni-flash-realtime

Alibaba

qwen3-omni-flash-realtime

$3.9

Input tokens/M

$15.2

Output tokens/M

64

Context Length

MCP

elevenlabs-mcp

Elevenlabs Mcp

ElevenLabs官方MCP服务器，提供文本转语音和音频处理API交互能力

MiniMax MCP Server

MiniMax MCP Server

MiniMax Model Context Protocol (MCP) 是一个官方服务器，支持与强大的文本转语音、视频/图像生成API交互，适用于多种客户端工具如Claude Desktop、Cursor等。

Short Video Maker

Short Video Maker

开源短视频自动生成工具，整合文本转语音、自动字幕、背景视频和音乐，从简单文本输入创建专业短视频。

MiniMax

MiniMax

MiniMax官方模型上下文协议（MCP）服务器，支持文本转语音、视频/图像生成等API交互。

bouyomichan-mcp-nodejs

Bouyomichan Mcp Nodejs

这是一个基于Node.js的MCP服务器项目，通过Model Context Protocol实现AI助手与棒読みちゃん语音合成软件的集成，提供文本转语音功能。

elevenlabs-mcp-server

Elevenlabs Mcp Server

ElevenLabs文本转语音MCP服务

MiniMax-MCP

MiniMax MCP

MiniMax-MCP是一个多功能服务器项目，提供文本转语音、视频生成和图像生成等API服务，支持开发者集成高级多媒体功能。

speech-mcp

Speech Mcp

Speech MCP是为Goose设计的语音交互扩展，提供实时语音识别、高质量文本转语音、多语言支持和现代化音频可视化界面，支持多角色对话生成和音频转录功能。

kokoro-tts-mcp

Kokoro Tts Mcp

Kokoro文本转语音(TTS)MCP服务器，支持生成MP3文件并可选上传至S3存储

Zonos TTS

Zonos TTS

Zonos TTS与Claude的MCP集成项目，实现文本转语音功能。

voicepeak-mcp

Voicepeak Mcp

VOICEPEAK文本转语音的MCP服务器，支持语音合成、播放和发音词典管理等功能

ms-lucidia-voice-gateway-mcp

Ms Lucidia Voice Gateway Mcp

一个基于Windows原生语音服务的文本转语音和语音转文本的MCP服务器，无需外部API依赖。

Rime Text-to-Speech

Rime Text To Speech

一个基于Rime API的文本转语音MCP服务器，提供系统音频播放功能。

mcp-video-extraction

Mcp Video Extraction

一个基于MCP协议的视频音频文本提取服务器，支持从多平台下载视频并利用Whisper模型进行语音转文字处理

audio-transcriber-mcp

Audio Transcriber Mcp

基于OpenAI API的音频转录MCP服务

MiniMax Multimodal

MiniMax Multimodal

MiniMax MCP JS是一个基于JavaScript/TypeScript实现的MiniMax MCP协议工具集，提供图像生成、视频生成、文本转语音等功能，支持与MCP兼容客户端交互。

fish-speech-mcp

Fish Speech Mcp

一个基于FishSpeech的文本转语音(TTS)MCP服务器，支持语音参考保存，可与Dive等MCP兼容的LLM集成使用。

Speech Interface (Faster Whisper)

Speech Interface (Faster Whisper)

Speech MCP 是一个为Goose设计的语音交互扩展，提供实时语音识别、文本转语音和音频可视化功能。

chatterbox-mcp

Chatterbox Mcp

一个基于Chatterbox TTS模型的简化MCP服务器，提供文本转语音生成及自动播放功能，支持实时进度通知和自动模型加载。

mcp-tts-say

Mcp Tts Say

一个基于MCP服务器和OpenAI TTS SDK的文本转语音工具，支持本地环境播放。

AIBase

Empowering the future, your artificial intelligence solution think tank

English 简体中文繁體中文にほんご

FirendLinks:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

© 2025AIBase

Business Cooperation Site Map