Stability AI最近又开源了一个模型,名字有点长,叫“Adversarial Post-Training 加速的快速文字转音频生成”,听起来很硬核对不对?但你只需要记住它的核心特点:超!级!快!而!且!超!级!轻!
以前我们用的文字转语音,就像老式的烧水壶,得等半天才能咕嘟咕嘟地出声。而且那些高质量的模型,往往体型巨大,像个“胖墩”,塞到手机里根本跑不动。这让很多需要实时生成音频的创意应用(比如音乐制作、游戏音效)非常头疼,延迟太高,根本没法用!
论文地址:https://arxiv.org/pdf/2505.08175
模型地址:https://huggingface.co/stabilityai/stable-audio-open-small
Stability AI 这次就是要终结这个“龟速时代”!他们发布了一个只有341M 参数的文字转语音模型(这在动辄几十亿、上千亿参数的模型面前,简直就是个“苗条精”!),最关键的是,它能以惊人的速度生成高质量音频!
“闪电小子”为啥这么快?秘密武器大公开!
这个“闪电小子”为啥能跑这么快呢?它藏着几个秘密武器:
ARC 后训练:不是蒸馏,胜似蒸馏!
很多让模型变快的方法,常用的是“蒸馏”,就是让一个大模型(老师)教一个小模型(学生)怎么快速生成结果。但这套方法有点麻烦,要么训练成本高,要么需要存储大量老师生成的“作业”。Stability AI 搞了个新花样,叫做 ARC(Adversarial Relativistic-Contrastive)后训练。 这是一种对抗性加速算法,不!基!于!蒸!馏! 它让模型在训练后变得更快,而且效果一点不输那些复杂的蒸馏方法。
相对抗性损失:跟“以假乱真”对着干!
ARC 里面的“AR”就是“对抗性相对损失”。 传统的对抗网络(GAN)是生成器努力生成逼真的假样本骗过判别器,判别器努力区分真假。这个“相对抗性损失”更狠!它让生成器不仅要生成逼真的样本,还要让生成的样本比真实样本更“真”!而判别器呢,就是要让真实样本比生成的样本更“真”! 它们之间就像在比谁更能“以假乱真”,但这个“真”是相对的。 这个想法很有趣,它迫使生成器不断提高生成音频的质量。而且,因为是文字转语音模型,他们直接用相同文字描述的真实音频和生成音频来做对比,提供了更强的训练信号。
对比损失:让模型“听懂人话”!
光是生成逼真的音频还不够,还得“听懂人话”,生成符合文字描述的声音。传统的对抗性训练有时候会忽略文字信息,生成一些不搭边的声音。为了解决这个问题,ARC 加入了“对比损失”。 它训练判别器,让判别器能区分带有正确文字描述的音频和带有错误文字描述(比如文字被打乱了)的音频。 判别器会努力让正确配对的音频和文字之间的距离更近,错误配对的距离更远。 这就像训练判别器成为一个音频-文字的“对对碰”专家,让它更好地理解文字的含义。 有了这个“专家”的指导,生成器就能更好地生成符合文字描述的音频了。 而且,这种方法还能避免使用 CFG(Classifier-Free Guidance),那玩意儿虽然能提高文本一致性,但有时候会牺牲生成的多样性。
乒乓采样:左右腾挪,步步逼近!
传统的扩散模型生成音频需要很多步,一步步去噪。这个“闪电小子”用了“乒乓采样”的技术。 它不是简单的一步去噪到底,而是在去噪和加噪之间来回切换,有点像打乒乓球,在不同噪声水平之间来回“击打”,每击打一次,生成的音频就更接近真实,质量就更高。 而且,它可以用更少的步数达到很好的效果。
架构优化:“苗条”又强壮!
除了新的训练方法,模型本身的架构也进行了优化,是在 Stable Audio Open (SAO) 的基础上进行了改进。 工程师们把模型的一些“零部件”做得更小巧高效,比如把 Diffusion Transformer (DiT) 的维度和层数都减少了,还加入了一些新的技术让它更稳定。 这些优化让模型的参数数量大大减少,只有341M,同时又不牺牲性能。
性能炸裂:H100上75毫秒,手机上7秒!
这些秘密武器加起来,就让这个模型的速度快到惊人!在专业的 H100GPU 上,它可以在大约75毫秒内生成12秒的44.1kHz 立体声音频! 这是什么概念?比原始的 SAO 模型快了100倍! 几乎是瞬间生成!
更厉害的是,他们还专门针对移动设备进行了优化。在手机 CPU 上,它也能在大约7秒内生成12秒的音频! 这可能是目前最快的手机端文字转语音模型了! 想象一下,以后你在手机上用各种创意应用,实时生成想要的音效或音乐片段,再也不是梦想!
而且,这个模型在保证速度的同时,并没有明显牺牲音频质量。 论文中各种专业的音频评估指标(比如 FD openl3 、KL-passt、CLAP score)显示,它的音频质量可以和那些更大的、更慢的模型相媲美。
多样性爆棚:不仅快,而且脑洞大开!
很多加速模型为了追求速度,会牺牲生成结果的多样性,生成的声音听起来都差不多,很无聊。但这个“闪电小子”不一样!它不仅速度快,生成的声音多样性还更高!
论文中提出了一个新的评估指标 CCDS(CLAP Conditional Diversity Score),专门用来衡量模型在给定相同文字描述下生成不同声音的能力。 结果显示,这个模型在 CCDS 上的得分很高,而且通过主观听力测试也证实了这一点——大家觉得它生成的声音更多样、更有创意! 这意味着,如果你输入一段文字,让它生成一种声音,它可能会给你好几种不同风格、不同感觉的结果,大大激发你的创作灵感!
更多惊喜:音频转音频,玩转声音风格!
除了文字转语音,这个模型还有一个隐藏技能——音频转音频! 简单来说,你可以给它一段音频作为输入,然后用文字描述你想要的声音风格,它就能把输入的音频转换成新的风格!
比如,你可以输入一段自己的说话声,然后用文字描述“变成机器人的声音”,它就能给你一段机器人版的说话声!或者输入一段鼓点,用文字描述“变成拉丁风格的鼓点”,它就能给你一段充满拉丁风情的鼓点! 这简直就是声音界的“风格迁移”,太酷炫了!而且这个功能不需要额外的训练,直接就能用!
落地应用:手机里的“声音魔法师”!
这个超快、超轻、高质量的模型,为文字转语音技术的落地应用打开了新的大门。尤其是在移动设备上,以前受限于算力,很难运行复杂的音频生成模型。现在,有了这个“闪电小子”,你的手机可以变成一个强大的“声音魔法师”,随时随地帮你生成各种创意音频。
想象一下,你可以在手机上实时为视频配音,为游戏生成独特的音效,或者仅仅是玩转各种有趣的声音效果。而且因为它对文字描述的理解能力强,你可以更精准地控制生成的声音。
当然,目前模型还有一些需要改进的地方,比如它对内存和存储空间还有一定的要求。 但 Stability AI 已经迈出了关键的一步,让高性能的文字转语音技术真正走进了寻常百姓家(的手机里)!
小小的模型,大大的能量!
Stability AI 开源的这个341M 超轻量文字转语音模型,无疑是一个重磅炸弹!它通过创新的 ARC 后训练方法,实现了令人惊叹的速度和多样性,同时保持了高质量的音频输出。 它的轻量化设计和在移动设备上的出色表现,预示着文字转语音技术将在更多创意应用中大放异彩。
未来,我们可以期待这个模型在更多场景下大显身手,让我们的世界变得更加“声”动有趣!