信息

AI新闻资讯

探索AI前沿，掌握行业发展趋势

AI 商用·开源产品库

精准筛选产品，多维度产品调研

AI 产品排行榜

热门AI产品实力、热度、年/月/日排行

AI产品提交

提交AI产品信息，助力产品推广和用户转化

工具

AI工具导航

一站式AI工具指南，快速找到你需要的工具

工具

GEO 品牌全景分析

企业级监测平台，全域追踪品牌在 12+ AI 平台的表现

GEO 品牌得分检测

输入品牌生成综合健康度得分，快速定位整体位置与短板

GEO 排名查询

单次提问，立刻看到品牌在多个 AI 平台回答中的排名

GEO 排名监测

批量问题 × 定频GEO排名查询长期追踪排名变化曲线

AI 对话问题挖掘

挖出用户会问 AI 的高热度问题，决定做哪些内容

GEO 推广链接检测

追踪投放的推广链接，评估哪些渠道真正被 AI 引用

站点AI友好度检测

快速了解你的网站是否对AI搜索友好，以及如何优化

服务

GEO排名优化系统源码

拥有属于自己的GEO系统，助您成为专业GEO优化服务商

GEO 排名优化服务

通过AI搜索优化服务，让品牌在AI中实现霸屏

信息

MCP服务端

聚集热门MCP服务，快速找到适合你的服务

MCP客户端

轻松接入MCP客户端，调用强大的AI能力

MCP教程与实践

学习MCP使用技巧，从入门到精通

MCP排行榜

热门MCP服务性能排行，帮你找到最佳选择

MCP服务提交

发布你的MCP服务，推广你的MCP服务

工具

MCP实验场

自由测试MCP服务，线上快速体验

MCP服务调试器

快速测试MCP服务，快速上线

信息

大模型API聚合平台

国内外主流大模型的统一API接入与调用服务

模型库

涵盖各类AI模型，满足你的开发与研究需求

模型供应商

寻找优质模型提供商，获取可靠模型支持

大模型排行榜

热门AI大模型性能、热度、年/月/日排行

工具

大模型API中转站检测

帮助检测挑选可以放心使用的大模型中转站

大模型选型对比

多维度对比大模型，找到最适合你的模型

大模型费用计算器

精准计算大模型使用成本，合理规划预算

大模型竞技场

多模型实时评测，模型输出结果快速比对

模型个人电脑配置检测器

一键检测电脑配置，研判运行模型的兼容性

模型部署服务器配置计算器

根据算力需求，推荐匹配的服务器配置

声控未来！全新AI模型Sketch2Sound仅凭声音模仿和文本提示，即可生成高品质音频

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · Dec 24, 2024

442

用一段简单的哼唱、一段节奏的敲击，就能让AI生成一段高品质的音乐或音效，这不再是幻想。一项名为Sketch2Sound的创新研究成果，展示了一种全新的AI模型，它可以通过声音模仿和文本提示来生成高质量的音频，为声音创作领域带来了革命性的突破。

Sketch2Sound的核心技术在于，它能够从任何声音模仿（如人声模仿或参考声音）中提取出三个关键的、随时间变化的控制信号:响度、亮度(频谱质心)和音高。这些控制信号被编码后，会被添加到用于文本到声音生成的潜在扩散模型中，从而引导AI生成符合特定要求的声音。

这项技术最令人称道的地方在于它的轻量化和高效性。Sketch2Sound建立在现有的文本到音频潜在扩散模型之上，只需进行4万步的微调，并且每个控制信号仅需一个线性层，相比其他方法（如ControlNet）更加简洁高效。为了让模型能够从“草图”般的声音模仿中进行合成，研究人员在训练过程中还对控制信号应用了随机中值滤波器，使其能够适应具有灵活时间特性的控制信号。实验结果表明，Sketch2Sound不仅能合成出符合输入控制信号的声音，还能保持对文本提示的遵从，并达到与纯文本基线相当的音频质量。

Sketch2Sound为声音艺术家提供了一种全新的创作方式。他们可以利用文本提示的语义灵活性，结合声音姿态或模仿的表达性和精确性，来创造出前所未有的声音作品。这类似于传统Foley艺术家通过操作物体来制造音效，而Sketch2Sound则通过声音模仿来引导声音生成，为声音创作带来了“人性化”的触感，提高了声音作品的艺术价值。

与传统的文本到音频交互方式相比，Sketch2Sound能够克服其局限性。以往，声音设计师需要花费大量时间调整生成声音的时间特性，使其与视觉效果同步，而Sketch2Sound则可以通过声音模仿来自然地实现这种同步，并且不仅仅局限于人声模仿，任何类型的声音模仿都可以用来驱动这个生成模型。

研究人员还开发了一种技术，通过在训练过程中应用不同窗口大小的中值滤波器来调整控制信号的时间细节。这使得声音艺术家能够控制生成模型对控制信号时间精确度的遵循程度，从而提高那些难以完美模仿的声音的质量。在实际应用中，用户可以通过调整中值滤波器的大小，在严格遵守声音模仿和保证音频质量之间找到平衡。

Sketch2Sound的工作原理是，首先从输入音频信号中提取响度、频谱质心和音高三个控制信号。然后，将这些控制信号与文本到声音模型中的潜在信号对齐，并通过简单的线性投影层调节潜在扩散模型，最终生成符合要求的声音。实验结果显示，通过时变控制信号调节模型可以显著提高对该信号的遵守度，同时对音频质量和文本遵从度的影响微乎其微。

值得一提的是，研究人员还发现，控制信号可以操纵生成信号的语义。例如，在使用文本提示“森林氛围”时，如果在声音模仿中加入随机的响度爆发，模型就可以在这些响度爆发中合成鸟鸣声，而无需额外提示“鸟类”，这表明模型已经学会了响度爆发和鸟类存在之间的关联。

当然，Sketch2Sound也存在一些局限性，例如质心控制可能会将输入声音模仿的房间音调融入到生成的音频中，这可能是因为当输入音频中没有声音事件时，房间音调是由质心编码的。

总而言之，Sketch2Sound是一个强大的生成声音模型，它可以通过文本提示和时变控制（响度、亮度、音高）来生成声音。它能够通过声音模仿和“草图”式控制曲线来生成声音，并且具有轻量化、高效率的特点，为声音艺术家提供了一种可控、姿态化和富有表现力的工具，能够生成具有灵活时间特性的任意声音，未来在音乐创作、游戏音效设计等领域具有广阔的应用前景。

论文地址：https://arxiv.org/pdf/2412.08550

Sketch2Sound AI音乐生成潜在扩散模型声音创作

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

软银独家合作Sierra，大模型智能客服正式进军日本市场

软银集团7月14日宣布，与美国AI初创公司Sierra达成战略合作，并成为其在日本独家合作伙伴。双方将联合推出基于智能AI代理的新一代客服解决方案。软银旗下线上品牌Linemo已率先接入该技术，后续将推广至软银、Y!mobile等核心品牌及其他业务线。

2026年7月14号 10:11

110

英伟达营收逼近千亿大关，黄仁勋亲自回应架构延期传闻

英伟达CEO黄仁勋在行业交流会上表示，季度营收逼近千亿美元但增长仍在加速。管理层回应ASIC竞争加剧及产品路线图质疑，重申AI算力核心竞争力，并对下一代旗舰架构Rubin Ultra推迟至2028年的传闻作出澄清。

2026年7月14号 10:11

100

Meta大手笔：斥资 500 亿美元打造5GW数据中心，AI算力格局迎来重塑

Meta宣布斥资超500亿美元，将路易斯安那州数据中心算力扩容至5GW，打造全球罕见的超大规模AI基础设施，标志着其算力竞赛的重大里程碑。

2026年7月14号 10:01

170

腾讯混元发布 HyOCR-1.5：仅 1B 参数推理提速 6.37 倍

轻量级端到端OCR模型HyOCR-1.5发布，在保持轻量化同时大幅提升性能与效率。作为首个全栈开源OCR模型，它全面开放权重、训练配方、数据构造方法及推理加速框架，显著降低开发门槛，让开发者可轻松复现、微调，并在消费级显卡或笔记本上部署。

2026年7月14号 9:46

210

AI主权新突破：德国研究联盟发布开源大模型Soofi S

德国研究联盟发布开源大模型Soofi S30B-A3B，助力欧洲主权AI。该模型采用混合专家架构，融合Mamba-2与注意力层，总参数量316亿，但推理时每token仅激活部分参数，实现高效生成，为高性能开源模型领域注入新活力。

2026年7月14号 9:41

170

抢滩 OpenAI 腹地!Anthropic 启动 Claude 卢比计价，全面发力印度市场

7月13日，美国AI独角兽Anthropic在印度推出Claude本地化卢比计价服务，覆盖官网和移动应用。印度是其全球第二大市场，用户占比5.8%。含当地税费后，Claude Pro月费2000卢比(约21美元)，Claude Max起价11999卢比(约125美元)，团队套餐每席2399卢比(约25美元)。目前仍需通过银行支付。

2026年7月14号 9:41

150