StepFun AI发布开源项目Step-Audio-EditX,基于30亿参数音频语言模型,将语音编辑转化为类似文本标记的可控操作,突破传统波形处理模式。该技术有望实现"像编辑文本一样编辑语音"的直观交互,相关论文已发布于arXiv平台(编号2511.03601)。
StepFun AI发布开源音频编辑模型Step-Audio-EditX,该3B参数模型将音频编辑转化为类似文本编辑的令牌操作,实现直接可控的语音编辑。它解决了当前零样本文本转语音系统在情感、风格等控制上的局限,使表达性语音编辑更简单精确。
微软推出首款自研文本转图像生成器MAI-Image-1,标志着其AI发展新阶段。该模型通过吸收创意专业人士意见,有效避免重复和风格化问题,在生成照片级真实图像方面表现优异,尤其擅长处理闪电、风景等复杂场景。
微软推出实验性AI中心Copilot Labs,邀请用户参与AI创新。平台提供实验工具,鼓励社区共同塑造Copilot未来。首个工具“Copilot音频表达”可将文本转为自然语音,用户可灵活调整音效。
尼泊尔首个AI内容创作平台,支持TTS、STT、文本转图像,有500+语音、100+语言。
将您的语音立即转换为文本。完全私密,开源,由AI技术驱动。
AI音频API,提供文本转语音、语音克隆和声音转换功能。
将文本转换为自然的语音,拥有 1000 多种逼真的 AI 声音。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
Baidu
128
$6
$24
256
$8
$240
52
Bytedance
$1.2
$3.6
4
pnnbao-ump
VieNeu-TTS是首个可在个人设备上运行的越南语文本转语音模型,具备即时语音克隆能力。基于NeuTTS Air微调,能够生成自然逼真的越南语语音,在CPU上具备实时性能。
TheStageAI
TheWhisper-Large-V3-Turbo 是 OpenAI Whisper Large V3 模型的高性能微调版本,由 TheStage AI 针对多平台实时、低延迟和低功耗语音转文本推理进行优化。支持流式转录、单词时间戳和可扩展性能,适用于实时字幕、会议和设备端语音界面等场景。
TheWhisper-Large-V3是OpenAI Whisper Large V3模型的高性能微调版本,由TheStage AI针对多平台(NVIDIA GPU和Apple Silicon)的实时、低延迟和低功耗语音转文本推理进行了优化。
nineninesix
KaniTTS是一款专为实时对话式AI应用优化的高速、高保真文本转语音模型,采用两阶段管道结合大型语言模型和高效音频编解码器,实现卓越的速度和音频质量。该模型支持西班牙语,具有4亿参数,采样率为22kHz。
KaniTTS是一款专为实时对话式人工智能应用优化的高速、高保真阿拉伯语文本转语音模型。它采用两阶段流水线架构,结合大语言模型与高效音频编解码器,实现卓越的速度和音频质量,能够满足对话式AI、无障碍辅助、研究等多领域的语音合成需求。
KaniTTS是一款专为实时对话式AI应用优化的高速、高保真文本转语音模型,通过独特的两阶段架构结合大语言模型与高效音频编解码器,实现低延迟与高质量语音合成,实时因子低至0.2,比实时速度快5倍。
KaniTTS是一款专为实时对话式AI应用优化的高速、高保真文本转语音模型。它采用两阶段流水线架构,结合大语言模型和高效音频编解码器,实现了卓越的速度和音频质量,支持多种语言并适用于边缘/服务器部署。
neuphonic
NeuTTS Air是世界上首个具备即时语音克隆功能的超逼真、端侧文本转语音(TTS)语言模型。基于0.5B参数的大语言模型骨干构建,能为本地设备带来自然的语音、实时性能、内置安全性和说话人克隆功能。
NeuTTS Air是全球首个具有即时语音克隆功能的超逼真设备端文本转语音模型,基于0.5B参数的大语言模型骨干构建,能在本地设备上实现自然语音生成、实时性能和说话人克隆功能。
NeuTTS Air是世界上首个具备即时语音克隆功能的超逼真、设备端文本转语音(TTS)语言模型。基于0.5B大语言模型骨干网络构建,能为本地设备带来自然的语音、实时性能、内置安全功能和说话人克隆能力。
FreedomIntelligence
Soundwave是一款突破语音与文本界限的语音转文本模型,仅通过1万小时数据训练就在语音翻译和AIR-Bench语音任务中展现出卓越性能。
poisson-fish
基于《星空》游戏中瓦斯科角色语音训练的派珀文本转语音模型,适用于AI伙伴模组和本地大型语言模型聊天
facebook
Meta AI开发的奇契瓦语文本转语音模型,基于VITS架构,支持高质量语音合成
Meta AI开发的波斯语文本转语音模型,基于VITS架构,支持高质量语音合成
Meta AI开发的希伯来语文本转语音模型,基于VITS架构,支持高质量语音合成
iamtarun
为The Sound Of AI开源研究小组的语音转文本模块微调的Facebook wav2vec2模型
这是一个基于Node.js的MCP服务器项目,通过Model Context Protocol实现AI助手与棒読みちゃん语音合成软件的集成,提供文本转语音功能。
一个为AivisSpeech文本转语音引擎设计的MCP服务器,支持日语语音合成、多角色声音选择和参数配置,实现与AI助手的无缝集成。
一个基于ClickSend API的MCP服务器,提供短信发送和文本转语音电话功能,支持AI模型程序化操作通讯服务。
Minimax MCP Tools是一个集成Minimax API的MCP服务器实现,提供AI图像生成和文本转语音功能,支持与Windsurf编辑器无缝集成。
Minimax MCP Tools是一个集成Minimax AI能力的MCP服务器实现,提供图像生成和文本转语音功能。
一个基于Resemble AI语音生成API的服务器实现,支持通过MCP协议与Claude和Cursor集成,提供文本转语音功能。
Hume MCP服务器是一个AI协作工具,允许用户通过MCP客户端应用(如Claude Desktop、Cursor等)使用Octave文本转语音技术,实现智能语音合成与交互。
一个为macOS提供全面音频播放功能的MCP服务器,支持系统声音、文本转语音和自定义音频文件播放,适用于AI助手等MCP客户端。
MCP Server Whisper是一个基于OpenAI Whisper和GPT-4o模型的音频处理服务器,提供高级音频转录、格式转换、批量处理和文本转语音等功能,通过Model Context Protocol标准实现与AI助手的无缝交互。
这是一个基于Node.js的MCP服务器项目,通过Model Context Protocol实现AI助手与棒読みちゃん语音合成软件的集成,提供文本转语音功能,支持音色、音量、语速等参数调整。
Smallest AI MCP Server是一个生产级的ModelContextProtocol服务器,专为Waves文本转语音和语音克隆平台设计,提供快速、安全的AI语音工作流解决方案。
基于Minimax AI和Amazon S3的语音生成MCP服务器,提供文本转语音功能并自动上传音频文件到云端存储