StepFun AI团队推出音频大模型Step-Audio-R1,通过优化计算资源利用,解决了音频AI模型在长推理链中准确性下降的问题。研究团队指出,问题源于训练时过度依赖文本数据,导致模型推理类似阅读文字而非实际聆听声音。
百度世界大会发布文心大模型5.0,李彦宏将其定义为“原生全模态模型”,实现文本、图像、声音深度融合协同,突破传统多模态拼接方式,推动国产AI进入新纪元。
Maya Research推出Maya1文本转语音模型,30亿参数,可在单GPU实时运行。模型通过自然语言描述和文本输入,生成可控且富有表现力的语音,精准模拟人类情感与声音细节,如指定年龄、口音或角色特征。
MiniMax推出新一代音乐生成模型Music2.0,凭借显著提升的音乐理解与表达能力,被形容为“会唱歌的制作人”。该模型能精准捕捉人声情绪和器乐动态,在声音表现力上实现关键突破,预示着音乐创作体验的重大变革。
集成多AI模型,可通过对话生成图像、视频和声音,优化创意流程。
使用微信聊天记录微调大语言模型,实现高质量声音克隆。
下一代语音语言模型,具备即时创建声音和个性的能力。
通过时间变化信号和声音模仿生成可控音频的模型
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$6
$24
$2
$20
Baidu
128
Clemylia
皮卡丘语言模型是Clemylia发起的一项独特的实验性语言项目,完全从零开始训练,仅基于'皮卡丘'的声音语料库,展示了小型语言模型创造原生语言身份的能力。
IbrahimSalah
这是一个基于300小时纯净阿拉伯语音频数据微调的文本转语音模型,专门为带完整元音符号的现代标准阿拉伯语提供高质量语音合成,支持声音克隆和长文本处理功能。
nvidia
音频火烈鸟3是一款完全开源的先进大型音频语言模型,能够提升对语音、声音和音乐的推理与理解能力。
Anjan9320
这是一个基于Facebook MMS项目的超轻量级印地语语音合成模型,专门针对女性声音进行了优化。该模型能够将印地语文本转换为自然流畅的女性语音,具有轻量级、高效运行的特点,支持随机时长预测器生成不同节奏的语音。
webbigdata
VoiceCore是一款可商用的日语语音AI代理模型,专注于让AI通过语音与人类进行自然交流,具备情感表达和非语言声音能力,支持多种语音风格选择。
google
HeAR是一种健康声学基础模型,专注于非语义呼吸声音的表示学习,如咳嗽和呼吸模式,可用于健康监测和疾病筛查。
adriabama06
OuteTTS 1.0是一个1B参数的文本转语音模型,支持多语言语音合成与声音克隆
greenarcade
基于wav2vec2-base训练的鸟类声音分类模型,可识别21种印度Vedanthangal鸟类保护区的鸟类物种
SebastianBodza
基于Orpheus-3B的德语文本转语音(TTS)模型,主要在自然人类语音录音上进行微调,旨在实现真实的声音。
epchannel
viⓍTTS 是一款语音生成模型,能够通过6秒的简短音频片段克隆声音到不同语言中。
facebook
统一的语音、音乐和声音自动质量评估模型
dannywillowliu
基于wav2vec2架构的音频分类模型,适用于气候相关的声音分类任务
Sigurdur
这是一个基于facebook/mms-tts-isl微调的冰岛语文本转语音模型,使用Talrómur数据集训练,专注于女性声音合成。
VIZINTZOR
这是一个基于VITS架构的泰语文本转语音(TTS)模型,专门针对男性声音进行微调训练。
shadialhakimi
ⓍTTS-v2是一个先进的语音生成模型,支持17种语言,仅需6秒音频即可克隆声音并实现跨语言语音合成。
homebrewltd
Ichigo-llama3s是一个支持音频和文本输入的大语言模型系列,专注于提升声音理解能力和用户交互体验。
wsntxxn
基于AudioSet预训练并在AudioSet-strong上微调的CRNN声音事件检测模型
UNRN
ⓍTTS是一款语音生成模型,仅需6秒音频即可克隆声音并应用于不同语言,支持阿根廷口音西班牙语。
FunAudioLLM
CosyVoice是一个文本转语音(TTS)模型,支持多种语言和风格的声音合成。
marianbasti
ⓍTTS是一款语音生成模型,仅需6秒的音频片段即可克隆声音并应用于不同语言。无需耗费数小时的大量训练数据。