昆仑万维开源视频生成大模型SkyReels-V3,实现参考图像转视频、视频延长及音频驱动虚拟形象三大功能集成。该模型支持1至4张参考图输入,能精准保留主体身份与构图,推动视频生成技术进入高保真、多模态新阶段。
MiniMax发布新一代音乐大模型Music2.5,通过技术创新显著提升AI音乐的专业性与听感。模型重点突破两大核心技术:段落级强控制,精准把握音乐结构,使乐曲逻辑更严密;物理级高保真,大幅提升音频质量。
ElevenLabs升级AI音效模型至版本2,支持生成最长30秒音频,新增无缝循环功能,采样率提升至48kHz,显著增强音效质量和专业适用性。
阿里巴巴开源音频生成模型ThinkSound,支持视频、文本、音频多模态输入,能自动生成与画面高度匹配的高保真音效。该模型采用链式推理技术,实现音画精准同步,适用于影视、游戏等领域。作为开源项目,ThinkSound降低了音效创作门槛,开发者可通过多个平台免费获取。这是阿里在多模态AI领域的最新突破,将推动音效生成技术发展。
Lyria 2 是一款高保真音乐生成模型。
音频驱动的高保真3D人头化身合成技术
生成高保真音乐的文本到音频模型
Google
$0.49
Input tokens/M
$2.1
Output tokens/M
1k
Context Length
$17.5
Alibaba
-
$15.8
$12.7
64
Baidu
$2.4
$12
8
$140
$280
32
$6
$6.4
$70
2.1k
Openai
$210
$420
nineninesix
KaniTTS是一款专为实时对话式AI应用优化的高速、高保真文本转语音模型,采用两阶段管道结合大型语言模型和高效音频编解码器,实现卓越的速度和音频质量。该模型支持西班牙语,具有4亿参数,采样率为22kHz。
KaniTTS是一款专为实时对话式人工智能应用优化的高速、高保真阿拉伯语文本转语音模型。它采用两阶段流水线架构,结合大语言模型与高效音频编解码器,实现卓越的速度和音频质量,能够满足对话式AI、无障碍辅助、研究等多领域的语音合成需求。
KaniTTS是一款专为实时对话式AI应用优化的高速、高保真文本转语音模型,通过独特的两阶段架构结合大语言模型与高效音频编解码器,实现低延迟与高质量语音合成,实时因子低至0.2,比实时速度快5倍。
KaniTTS Pretrain v0.3是一款高速、高保真的文本转语音模型,专为实时对话式人工智能应用优化,采用两阶段管道架构,结合大语言模型和高效音频编解码器,实现极低延迟和高品质语音合成。
KaniTTS是一款专为实时对话式AI应用优化的高速、高保真文本转语音模型。它采用两阶段流水线架构,结合大语言模型和高效音频编解码器,实现了卓越的速度和音频质量,支持多种语言并适用于边缘/服务器部署。
KaniTTS是一款高速、高保真的文本转语音模型,专为实时对话式人工智能应用而优化。该模型采用两阶段处理流程,结合大语言模型和高效音频编解码器,在Nvidia RTX 5080上生成15秒音频的延迟仅需约1秒,MOS自然度评分达4.3/5,支持英语、中文、日语等多种语言。
MALIBA-AI
为班巴拉语提供神经文本转语音合成功能,支持10位地道的班巴拉语发音人,生成高保真音频。
nvidia
BigVGAN 是一款由 NVIDIA 开发的大规模训练的通用神经声码器。它通过对抗性生成网络(GAN)架构,将梅尔频谱图等声学特征转换为高质量、高保真的音频波形。该模型在多种音频类型(如语音、环境声、音乐)上进行了大规模训练,支持多种采样率和配置,以其卓越的音频质量和通用性在语音合成领域表现出色。
facebook
Meta AI开发的高保真实时神经音频编解码器,专为MusicGen项目训练
EnCodec是由Meta AI开发的实时高保真神经音频编解码器,支持多种带宽配置和流式处理。
EnCodec是由Meta AI开发的高保真实时神经音频编解码器,采用端到端训练方式,支持多种带宽设置。