快手Kling 2.6版本推出语音与动作控制两大功能,实现原生音频生成并提升复杂动作处理精度。语音控制可生成匹配视频的音效、人声和音乐,支持个性化声音定制。
字节跳动推出“Seedance1.5Pro”音视频创作模型,现已上线豆包平台。该模型实现“文字-画面-声音”一体化生成,能深度理解文本意图,同步创作匹配的画面、音效与人物台词,有效避免音画脱节,并提升人物“开口说话”的自然度,让普通用户也能轻松制作有声视频。
阿里巴巴12月16日发布新一代万相2.6系列模型,针对影视制作和图像创作全面升级,号称“全球功能最全的视频生成模型”。该模型已上线阿里云百炼和官网,核心亮点包括国内首个“角色扮演”功能,并支持音画同步、多镜头生成及声音驱动等,在画质、音效等方面实现技术突破。
多模态AI公司ElevenLabs推出集成式内容创作平台,融合图像生成、视频制作、声音合成、音乐创作和音效设计功能,实现从剧本到成品视频的一站式闭环生产,帮助创作者和营销人员告别多平台切换,高效完成商业视频制作。
Sora 2是AI视频与音频生成平台,可依文本生成带声音的逼真视频
通过先进的AI生成专业音乐,轻松创作版权免费的节拍、旋律和声音,适合创作者和音乐人。
ToMoviee AI是一款全能AI创意工作室,可以快速生成视频、图像、音乐和声音,适用于创作者、营销人员、电影制作人、设计师和团队。
通过时间变化信号和声音模仿生成可控音频的模型
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
Baidu
128
$6
$24
256
$8
$240
52
Bytedance
$1.2
$3.6
4
inclusionAI
铭音通是一个创新的统一语音框架,将语音理解、生成和编辑功能整合为一体。它采用统一的连续语音分词器,能在端到端模型中有效融合语义和声学特征,是首个仅通过自然语言指令就能实现通用、自由形式语音编辑的系统。
ACE-Step
一个混合说唱声线模型,专注于提升中文说唱/嘻哈音乐的生成质量
epchannel
viⓍTTS 是一款语音生成模型,能够通过6秒的简短音频片段克隆声音到不同语言中。
cckm
基于BigVGAN的神经声码器,使用特定梅尔频谱输入进行训练,适用于高质量音频生成任务
shadialhakimi
ⓍTTS-v2是一个先进的语音生成模型,支持17种语言,仅需6秒音频即可克隆声音并实现跨语言语音合成。
UNRN
ⓍTTS是一款语音生成模型,仅需6秒音频即可克隆声音并应用于不同语言,支持阿根廷口音西班牙语。
nvidia
BigVGAN 是由 NVIDIA 开发并开源的一款大规模训练的通用神经声码器。它能够将梅尔频谱图等声学特征高效、高质量地转换为逼真的音频波形,在语音合成、音频生成等领域具有重要价值。该模型以其强大的泛化能力和高保真度而著称。
BigVGAN 是一款由 NVIDIA 开发的大规模训练的通用神经声码器。它通过对抗性生成网络(GAN)架构,将梅尔频谱图等声学特征转换为高质量、高保真的音频波形。该模型在多种音频类型(如语音、环境声、音乐)上进行了大规模训练,支持多种采样率和配置,以其卓越的音频质量和通用性在语音合成领域表现出色。
BigVGAN是一种高性能神经声码器,通过大规模训练实现高质量的音频生成,支持多种采样率和频带配置。
BigVGAN是一种基于大规模训练的通用神经声码器,能够高质量地生成音频波形。
BigVGAN是基于大规模训练的通用神经声码器,能够从梅尔频谱生成高质量音频波形。
marianbasti
ⓍTTS是一款语音生成模型,仅需6秒的音频片段即可克隆声音并应用于不同语言。无需耗费数小时的大量训练数据。
patriotyk
Vocos 是一款快速神经声码器,通过生成频谱系数实现高效音频重建,特别适用于文本转语音任务。
facebook
MAGNeT 是一款文本到音乐和文本到声音的模型,能够根据文本描述生成高质量的音频样本。它是一个基于掩码生成非自回归Transformer的模型,使用32kHz EnCodec分词器。
MAGNeT是一个能够根据文本描述生成高质量音频样本的文本到音乐和文本到声音模型。
MAGNeT是一个文本到音乐和文本到声音的模型,能够根据文本描述生成高质量的音频样本。
MAGNeT是一个文本转音乐和文本转声音的模型,能够根据文本描述生成高质量的音频样本。
reach-vb
ⓍTTS是一款先进的语音生成模型,仅需6秒音频即可实现跨语言声音克隆,支持16种语言。
coqui
ⓍTTS 是一款语音生成模型,仅需6秒的音频片段即可克隆声音并应用于不同语言。