Google推出Gemini 2.5 Flash与Pro文本转语音预览模型,全面升级5月旧版。新模型支持24种语言的多角色对话,具备“情绪级”表达和自适应节奏功能,用户可一键切换“欢快乐观”或“阴郁严肃”等音色。开发者现可在Google AI Studio与Playground免费测试,预计2025年第一季度投入生产,适用于有声书、游戏NPC及本地化课程等场景。
Pebble创始人推出AI智能戒指Index01,售价75美元。用户按压戒指按钮即可快速记录备忘,无需依赖始终在线的AI设备。戒指通过手机上的开源语音转文本模型实现AI功能。
StepFun AI发布开源项目Step-Audio-EditX,基于30亿参数音频语言模型,将语音编辑转化为类似文本标记的可控操作,突破传统波形处理模式。该技术有望实现"像编辑文本一样编辑语音"的直观交互,相关论文已发布于arXiv平台(编号2511.03601)。
StepFun AI发布开源音频编辑模型Step-Audio-EditX,该3B参数模型将音频编辑转化为类似文本编辑的令牌操作,实现直接可控的语音编辑。它解决了当前零样本文本转语音系统在情感、风格等控制上的局限,使表达性语音编辑更简单精确。
AI语音听写应用,比打字快4倍,可将语音转化为清晰文本。
免费的一体化AI语音创作平台,支持文本转语音等功能
尼泊尔首个AI内容创作平台,支持TTS、STT、文本转图像,有500+语音、100+语言。
将您的语音立即转换为文本。完全私密,开源,由AI技术驱动。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$6
$24
256
Baidu
128
$8
$240
52
Bytedance
$1.2
$3.6
4
pnnbao-ump
VieNeu-TTS是首个可在个人设备上运行的越南语文本转语音模型,具备即时语音克隆能力。基于NeuTTS Air微调,能够生成自然逼真的越南语语音,在CPU上具备实时性能。
TheStageAI
TheWhisper-Large-V3-Turbo 是 OpenAI Whisper Large V3 模型的高性能微调版本,由 TheStage AI 针对多平台实时、低延迟和低功耗语音转文本推理进行优化。支持流式转录、单词时间戳和可扩展性能,适用于实时字幕、会议和设备端语音界面等场景。
TheWhisper-Large-V3是OpenAI Whisper Large V3模型的高性能微调版本,由TheStage AI针对多平台(NVIDIA GPU和Apple Silicon)的实时、低延迟和低功耗语音转文本推理进行了优化。
nineninesix
KaniTTS是一款专为实时对话式AI应用优化的高速、高保真文本转语音模型,采用两阶段管道结合大型语言模型和高效音频编解码器,实现卓越的速度和音频质量。该模型支持西班牙语,具有4亿参数,采样率为22kHz。
KaniTTS是一款专为实时对话式人工智能应用优化的高速、高保真阿拉伯语文本转语音模型。它采用两阶段流水线架构,结合大语言模型与高效音频编解码器,实现卓越的速度和音频质量,能够满足对话式AI、无障碍辅助、研究等多领域的语音合成需求。
KaniTTS是一款专为实时对话式AI应用优化的高速、高保真文本转语音模型,通过独特的两阶段架构结合大语言模型与高效音频编解码器,实现低延迟与高质量语音合成,实时因子低至0.2,比实时速度快5倍。
KaniTTS是一款专为实时对话式AI应用优化的高速、高保真文本转语音模型。它采用两阶段流水线架构,结合大语言模型和高效音频编解码器,实现了卓越的速度和音频质量,支持多种语言并适用于边缘/服务器部署。
neuphonic
NeuTTS Air是世界上首个具备即时语音克隆功能的超逼真、端侧文本转语音(TTS)语言模型。基于0.5B参数的大语言模型骨干构建,能为本地设备带来自然的语音、实时性能、内置安全性和说话人克隆功能。
NeuTTS Air是全球首个具有即时语音克隆功能的超逼真设备端文本转语音模型,基于0.5B参数的大语言模型骨干构建,能在本地设备上实现自然语音生成、实时性能和说话人克隆功能。
NeuTTS Air是世界上首个具备即时语音克隆功能的超逼真、设备端文本转语音(TTS)语言模型。基于0.5B大语言模型骨干网络构建,能为本地设备带来自然的语音、实时性能、内置安全功能和说话人克隆能力。
FreedomIntelligence
Soundwave是一款突破语音与文本界限的语音转文本模型,仅通过1万小时数据训练就在语音翻译和AIR-Bench语音任务中展现出卓越性能。
poisson-fish
基于《星空》游戏中瓦斯科角色语音训练的派珀文本转语音模型,适用于AI伙伴模组和本地大型语言模型聊天
facebook
Meta AI开发的奇契瓦语文本转语音模型,基于VITS架构,支持高质量语音合成
Meta AI开发的波斯语文本转语音模型,基于VITS架构,支持高质量语音合成
Meta AI开发的希伯来语文本转语音模型,基于VITS架构,支持高质量语音合成
iamtarun
为The Sound Of AI开源研究小组的语音转文本模块微调的Facebook wav2vec2模型
这是一个基于Node.js的MCP服务器项目,通过Model Context Protocol实现AI助手与棒読みちゃん语音合成软件的集成,提供文本转语音功能。
一个为AivisSpeech文本转语音引擎设计的MCP服务器,支持日语语音合成、多角色声音选择和参数配置,实现与AI助手的无缝集成。
一个基于ClickSend API的MCP服务器,提供短信发送和文本转语音电话功能,支持AI模型程序化操作通讯服务。
Minimax MCP Tools是一个集成Minimax API的MCP服务器实现,提供AI图像生成和文本转语音功能,支持与Windsurf编辑器无缝集成。
Minimax MCP Tools是一个集成Minimax AI能力的MCP服务器实现,提供图像生成和文本转语音功能。
一个为macOS提供全面音频播放功能的MCP服务器,支持系统声音、文本转语音和自定义音频文件播放,适用于AI助手等MCP客户端。
Hume MCP服务器是一个AI协作工具,允许用户通过MCP客户端应用(如Claude Desktop、Cursor等)使用Octave文本转语音技术,实现智能语音合成与交互。
一个基于Resemble AI语音生成API的服务器实现,支持通过MCP协议与Claude和Cursor集成,提供文本转语音功能。
MCP Server Whisper是一个基于OpenAI Whisper和GPT-4o模型的音频处理服务器,提供高级音频转录、格式转换、批量处理和文本转语音等功能,通过Model Context Protocol标准实现与AI助手的无缝交互。
Smallest AI MCP Server是一个生产级的ModelContextProtocol服务器,专为Waves文本转语音和语音克隆平台设计,提供快速、安全的AI语音工作流解决方案。
这是一个基于Node.js的MCP服务器项目,通过Model Context Protocol实现AI助手与棒読みちゃん语音合成软件的集成,提供文本转语音功能,支持音色、音量、语速等参数调整。
基于Minimax AI和Amazon S3的语音生成MCP服务器,提供文本转语音功能并自动上传音频文件到云端存储