微软开源实时语音模型VibeVoice-Realtime-0.5B,具备极低延迟和接近真人的语音表现。该模型从文本输入到发声平均仅需300毫秒,远低于传统TTS模型的1-3秒,实现近乎零延迟的实时语音合成。
复旦大学MOSS团队发布MOSS-Speech,首次实现端到端语音对话,模型已在Hugging Face上线并开源。采用“层拆分”架构,冻结原文本模型,新增语音理解、语义对齐和声码器层,可一次性完成语音问答、情绪模仿和笑声生成,无需传统三段式流程。评测显示,在ZeroSpeech2025任务中词错率降至4.1%,情感识别准确率达91.2%。
Hume AI推出全新“语音转换”功能,用户仅需一次录音即可将原声的节奏、发音和语调精准移植到任意目标声音,实现无缝融合与个性化表达。该功能已在创作工作室和API平台上线,标志着语音AI从机械朗读向情感共鸣的转变,开启无限创意可能。
魔珐科技发布全球首个3D数字人开放平台“魔珐星云”,让AI从文字对话升级为实时生成带表情、手势和身体动作的3D数字人。其核心3D多模态引擎可输入文本后毫秒级输出同步语音与动作,并适配手机、车载等多种终端,实现AI从“说话”到“表演”的进化。
Alibaba
$8
Input tokens/M
$240
Output tokens/M
52
Context Length
$3.9
$15.2
64
$15.8
$12.7
-
Bytedance
$0.8
$2
128
$2.4
$12
8
Tencent
32
$3
$9
$1.6
$10
$1.5
Xai
$21
$105
Openai
$3.5
$10.5
16
Baidu
openbmb
VoxCPM是一款创新的免分词器端到端文本转语音(TTS)系统,通过在连续空间中对语音进行建模,克服了离散分词的局限性。它具备上下文感知语音生成和逼真零样本语音克隆两大核心能力,能够根据文本内容自动调整韵律和风格,并仅需一个简短的参考音频即可克隆说话者的音色、口音和情感。
onnx-community
Supertonic-TTS-ONNX是一个基于ONNX格式的文本到语音转换模型,能够将英文文本转换为自然流畅的语音。该模型基于Supertone/supertonic基础模型开发,专为Transformers.js库优化,支持在浏览器环境中高效运行。
inclusionAI
铭音通是一个创新的统一语音框架,将语音理解、生成和编辑功能整合为一体。它采用统一的连续语音分词器,能在端到端模型中有效融合语义和声学特征,是首个仅通过自然语言指令就能实现通用、自由形式语音编辑的系统。
XiaomiMiMo
MiMo Audio是一款基于大规模预训练的音频语言模型,在语音智能和音频理解基准测试中取得了开源模型的SOTA性能。该模型展现出强大的少样本学习能力,能够泛化到训练数据中未包含的任务,支持语音转换、风格迁移和语音编辑等多种音频任务。
stepfun-ai
Step-Audio 2 是一款端到端的多模态大语言模型,专为满足行业级音频理解和语音对话需求而设计。具备先进的语音和音频理解能力、智能语音对话功能、工具调用和多模态检索增强生成能力,在多个音频理解和对话基准测试中取得了领先的性能。
wcy1122
MGM-Omni-TTS-2B是MGM-Omni全功能聊天机器人的语音生成组件,专门用于文本到语音转换。它支持中英文的零样本语音克隆,能够生成长达10分钟以上的流畅自然语音,并实现高效的流式音频生成。
NexaAI
Qwen2.5-Omni-3B-GGUF 是一个端到端的多模态模型,能够感知文本、图像、音频和视频等多种模态信息,同时以流式方式生成文本和自然语音响应。
calcuis
OpenAudio的GGUF量化版本是基于FishAudio模型的文本到语音合成工具,支持通过简单命令运行,提供便捷的语音合成体验。
unsloth
Whisper是OpenAI开发的最先进的自动语音识别(ASR)和语音翻译模型,在超过500万小时的标记数据上训练,具有强大的零样本泛化能力。Turbo版本是原版的修剪微调版本,解码层从32层减少到4层,速度大幅提升但质量略有下降。
Qwen
Qwen2.5-Omni 是一个端到端的多模态模型,能够感知文本、图像、音频和视频等多种模态,并以流式方式生成文本和自然语音响应。
Qwen2.5-Omni是一款端到端多模态模型,能够感知包括文本、图像、音频和视频在内的多种模态,同时以流式方式生成文本和自然语音响应。
salihfurkaan
VoxPolska是一个专注于波兰语文本到语音转换的先进模型,能够生成自然流畅且富有表现力的波兰语语音。
Qwen2.5-Omni是一款端到端多模态模型,能够感知文本、图像、音频和视频等多种模态信息,并以流式方式同步生成文本和自然语音响应。
Emova-ollm
EMOVA是一种端到端全能模态大语言模型,支持视觉、听觉和语音功能,能够生成具有情感控制的文本和语音响应。
epchannel
viⓍTTS 是一款语音生成模型,能够通过6秒的简短音频片段克隆声音到不同语言中。
EMOVA是一种端到端全能模态大语言模型,支持视觉、听觉和语音功能,具备情感语音对话能力。
EMOVA是一种端到端全能模态大语言模型,支持视觉、听觉和语音功能,无需依赖外部模型即可实现多模态理解和生成。
speechbrain
这是一个基于SpeechBrain框架训练的端到端自动语音识别系统,使用Conformer架构在25,000小时英文语音数据上训练。
Menlo
无言是一个紧凑的开源文本到语义模型(10亿参数),旨在直接将音频转换为离散的语义标记,无需依赖传统的文本转语音(TTS)模型。
一个基于Streamlit的智能聊天机器人,使用GPT-4o自动路由用户请求到不同工具(如聊天、图像生成、数据库查询、语音合成等),支持快速实验AI工具路由功能。
基于Minimax AI和Amazon S3的语音生成MCP服务器,提供文本转语音功能并自动上传音频文件到云端存储