微软开源实时语音模型VibeVoice-Realtime-0.5B,具备极低延迟和接近真人的语音表现。该模型从文本输入到发声平均仅需300毫秒,远低于传统TTS模型的1-3秒,实现近乎零延迟的实时语音合成。
复旦大学MOSS团队发布MOSS-Speech,首次实现端到端语音对话,模型已在Hugging Face上线并开源。采用“层拆分”架构,冻结原文本模型,新增语音理解、语义对齐和声码器层,可一次性完成语音问答、情绪模仿和笑声生成,无需传统三段式流程。评测显示,在ZeroSpeech2025任务中词错率降至4.1%,情感识别准确率达91.2%。
魔珐科技发布全球首个3D数字人开放平台“魔珐星云”,让AI从文字对话升级为实时生成带表情、手势和身体动作的3D数字人。其核心3D多模态引擎可输入文本后毫秒级输出同步语音与动作,并适配手机、车载等多种终端,实现AI从“说话”到“表演”的进化。
豆包语音团队推出“AI多人有声剧”全自动生产方案,实现从小说文本到成品广播剧的端到端无人化制作。无需配音、剪辑和人工干预,成本大降、效率提升,效果接近专业水准,角色识别准确率达98%。
一个可以在一次传递中生成超逼真的对话的 TTS 模型。
一个高效的语音合成模型,支持中英文及语音克隆。
CSM 1B 是一个由 Sesame 开发的文本到语音生成模型,可生成高质量的音频。
将PDF转换为音频内容,打造个性化的AI有声读物。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
Baidu
128
$6
$24
256
$8
$240
52
Bytedance
$1.2
$3.6
4
$2
openbmb
VoxCPM是一款创新的免分词器端到端文本转语音(TTS)系统,通过在连续空间中对语音进行建模,克服了离散分词的局限性。它具备上下文感知语音生成和逼真零样本语音克隆两大核心能力,能够根据文本内容自动调整韵律和风格,并仅需一个简短的参考音频即可克隆说话者的音色、口音和情感。
onnx-community
Supertonic-TTS-ONNX是一个基于ONNX格式的文本到语音转换模型,能够将英文文本转换为自然流畅的语音。该模型基于Supertone/supertonic基础模型开发,专为Transformers.js库优化,支持在浏览器环境中高效运行。
wcy1122
MGM-Omni-TTS-2B是MGM-Omni全功能聊天机器人的语音生成组件,专门用于文本到语音转换。它支持中英文的零样本语音克隆,能够生成长达10分钟以上的流畅自然语音,并实现高效的流式音频生成。
NexaAI
Qwen2.5-Omni-3B-GGUF 是一个端到端的多模态模型,能够感知文本、图像、音频和视频等多种模态信息,同时以流式方式生成文本和自然语音响应。
calcuis
OpenAudio的GGUF量化版本是基于FishAudio模型的文本到语音合成工具,支持通过简单命令运行,提供便捷的语音合成体验。
Qwen
Qwen2.5-Omni 是一个端到端的多模态模型,能够感知文本、图像、音频和视频等多种模态,并以流式方式生成文本和自然语音响应。
Qwen2.5-Omni是一款端到端多模态模型,能够感知包括文本、图像、音频和视频在内的多种模态,同时以流式方式生成文本和自然语音响应。
salihfurkaan
VoxPolska是一个专注于波兰语文本到语音转换的先进模型,能够生成自然流畅且富有表现力的波兰语语音。
Qwen2.5-Omni是一款端到端多模态模型,能够感知文本、图像、音频和视频等多种模态信息,并以流式方式同步生成文本和自然语音响应。
Emova-ollm
EMOVA是一种端到端全能模态大语言模型,支持视觉、听觉和语音功能,能够生成具有情感控制的文本和语音响应。
Menlo
无言是一个紧凑的开源文本到语义模型(10亿参数),旨在直接将音频转换为离散的语义标记,无需依赖传统的文本转语音(TTS)模型。
scb10x
台风2-音频版是一个端到端的语音转语音模型架构,能够处理音频、语音和文本输入,并同时生成文本和语音输出。该模型专门针对泰语优化,同时也支持英语。
gpt-omni
Mini-Omni2是一款全交互式多模态模型,能理解图像、音频和文本输入,并与用户进行端到端的语音对话。
kotoba-tech
Kotoba-Whisper-Bilingual是通过蒸馏Whisper模型训练而成的集合,专为日语和英语语音识别及语音到文本翻译任务设计。
japanese-asr
这是一个基于级联方法的日语语音到任意目标语言文本的翻译流水线,由自动语音识别(ASR)和文本翻译两部分组成。
DigitalUmuganda
这是一个基于端到端深度学习的基尼亚卢旺达语文本转语音(TTS)系统,使用Coqui的TTS库和YourTTS架构训练。
WillHeld
DiVA Llama 3是一个端到端的语音助手模型,能够处理语音和文本输入,采用蒸馏损失进行训练。
alakxender
这是一个基于Transformer架构的文本到语音(TTS)模型,支持迪维希语(Dhivehi)的语音合成。
mikhail-panzo
该模型是基于microsoft/speecht5_tts微调的语音合成(TTS)模型,主要用于文本到语音转换任务。
基于Minimax AI和Amazon S3的语音生成MCP服务器,提供文本转语音功能并自动上传音频文件到云端存储