苹果与特拉维夫大学合作推出“原则性粗粒度”技术,通过改变AI语音合成中的验证方式,在保持音质无损的同时,将生成速度提升约40%,突破了传统自回归模型逐个预测声音片段的效率瓶颈。
Lightricks开源LTX-2模型,支持生成20秒4K高清视频,实现画面、声音、口型、环境音和音乐的完美同步。模型权重、训练代码、基准测试和工具包已全部开源,托管于GitHub,社区反响热烈。
阿里巴巴云发布两款AI语音模型,Qwen3-TTS-VD-Flash支持用户通过文本指令定制声音,可精确描述声音的情感、节奏等特征,实现个性化语音生成。
字节跳动推出“Seedance1.5Pro”音视频创作模型,现已上线豆包平台。该模型实现“文字-画面-声音”一体化生成,能深度理解文本意图,同步创作匹配的画面、音效与人物台词,有效避免音画脱节,并提升人物“开口说话”的自然度,让普通用户也能轻松制作有声视频。
集成多AI模型,可通过对话生成图像、视频和声音,优化创意流程。
使用微信聊天记录微调大语言模型,实现高质量声音克隆。
下一代语音语言模型,具备即时创建声音和个性的能力。
通过时间变化信号和声音模仿生成可控音频的模型
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
Baidu
128
$6
$24
$2
$20
Clemylia
皮卡丘语言模型是Clemylia发起的一项独特的实验性语言项目,完全从零开始训练,仅基于'皮卡丘'的声音语料库,展示了小型语言模型创造原生语言身份的能力。
IbrahimSalah
这是一个基于300小时纯净阿拉伯语音频数据微调的文本转语音模型,专门为带完整元音符号的现代标准阿拉伯语提供高质量语音合成,支持声音克隆和长文本处理功能。
nvidia
音频火烈鸟3是一款完全开源的先进大型音频语言模型,能够提升对语音、声音和音乐的推理与理解能力。
Anjan9320
这是一个基于Facebook MMS项目的超轻量级印地语语音合成模型,专门针对女性声音进行了优化。该模型能够将印地语文本转换为自然流畅的女性语音,具有轻量级、高效运行的特点,支持随机时长预测器生成不同节奏的语音。
webbigdata
VoiceCore是一款可商用的日语语音AI代理模型,专注于让AI通过语音与人类进行自然交流,具备情感表达和非语言声音能力,支持多种语音风格选择。
google
HeAR是一种健康声学基础模型,专注于非语义呼吸声音的表示学习,如咳嗽和呼吸模式,可用于健康监测和疾病筛查。
adriabama06
OuteTTS 1.0是一个1B参数的文本转语音模型,支持多语言语音合成与声音克隆
greenarcade
基于wav2vec2-base训练的鸟类声音分类模型,可识别21种印度Vedanthangal鸟类保护区的鸟类物种
SebastianBodza
基于Orpheus-3B的德语文本转语音(TTS)模型,主要在自然人类语音录音上进行微调,旨在实现真实的声音。
epchannel
viⓍTTS 是一款语音生成模型,能够通过6秒的简短音频片段克隆声音到不同语言中。
facebook
统一的语音、音乐和声音自动质量评估模型
dannywillowliu
基于wav2vec2架构的音频分类模型,适用于气候相关的声音分类任务
Sigurdur
这是一个基于facebook/mms-tts-isl微调的冰岛语文本转语音模型,使用Talrómur数据集训练,专注于女性声音合成。
VIZINTZOR
这是一个基于VITS架构的泰语文本转语音(TTS)模型,专门针对男性声音进行微调训练。
shadialhakimi
ⓍTTS-v2是一个先进的语音生成模型,支持17种语言,仅需6秒音频即可克隆声音并实现跨语言语音合成。
homebrewltd
Ichigo-llama3s是一个支持音频和文本输入的大语言模型系列,专注于提升声音理解能力和用户交互体验。
wsntxxn
基于AudioSet预训练并在AudioSet-strong上微调的CRNN声音事件检测模型
UNRN
ⓍTTS是一款语音生成模型,仅需6秒音频即可克隆声音并应用于不同语言,支持阿根廷口音西班牙语。
FunAudioLLM
CosyVoice是一个文本转语音(TTS)模型,支持多种语言和风格的声音合成。
marianbasti
ⓍTTS是一款语音生成模型,仅需6秒的音频片段即可克隆声音并应用于不同语言。无需耗费数小时的大量训练数据。