Step-Audio-EditX 发布:30亿参数音频 LLM 打开语音“可编辑时代”

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · Nov 10, 2025

在文本生成与图像生成已被大模型彻底重塑的时代，语音编辑仍是最难以“像写文本那样”直观操作的领域。而近日，StepFun AI 发布的全新开源项目 Step-Audio-EditX 正在改变这一现状。该模型基于 30亿参数的音频语言模型（Audio LLM），首次将语音编辑转化为类似文本标记级别的可控操作，而非传统的波形信号处理任务。

根据团队在最新论文 arXiv:2511.03601中介绍，Step-Audio-EditX 的目标是让开发者能够“像改一句文本那样，直接编辑语音的情感、语调、风格甚至呼吸声”。

从“模仿声音”到“精准控制”

目前多数零样本 TTS 系统仅能从短参考音频中复制情感、口音和音色，听起来自然却缺乏控制力。文本中的风格提示往往被忽略，尤其在跨语言、跨风格任务中效果不稳定。

Step-Audio-EditX 选择了完全不同的路径——不再依赖复杂的解耦编码器结构，而是通过改变数据结构与训练目标实现可控性。模型通过大量文本相同、属性差异显著的语音对和语音三元组进行学习，从而掌握如何在文本不变的前提下调整情感、风格与副语言信号。

双码本分词与3B 音频 LLM 架构

Step-Audio-EditX 延续了 Step-Audio 的 双码本分词器（Dual Codebook Tokenizer）:

语言流:采样率16.7Hz，包含1024个标记;
语义流:采样率25Hz，包含4096个标记;
两者以 2:3比例交错排列，保留语音中的韵律与情感特征。

在此基础上，研究团队构建了一个 30亿参数的紧凑型音频 LLM。模型使用文本 LLM 初始化，并在混合语料库上训练（文本与音频标记比例1:1）。它能读取文本或音频标记，并始终输出双码本标记序列。

音频重建由独立解码器完成:扩散变换器流匹配模块 预测梅尔频谱图，BigVGANv2声码器 将其转为波形。整个模块在20万小时高质量语音上训练，显著提升了音色与韵律的自然度。

大间隔学习与合成数据策略

Step-Audio-EditX 的关键创新是“大间隔学习”（Large Margin Learning）。模型在保持文本不变的前提下，通过三元组和四元组样本训练，学习在“差异明显”的语音属性间转换。

团队使用了覆盖中、英、粤语和四川话的 6万名说话人数据集，并构建了合成三元组以强化情感与风格控制。每组样本由人工配音演员录制10秒片段，StepTTS 系统生成中性与情感版本，再由人工与模型双重评分筛选质量最高的样本。

副语言（如笑声、呼吸、填充停顿）编辑基于 NVSpeech 数据集，通过克隆和标注去除实现时域监督，无需额外边距模型。

SFT + PPO:让模型学会听懂指令

训练分为两个阶段:

监督微调（SFT）:模型在统一的聊天格式中同时学习 TTS 和编辑任务;
强化学习（PPO）:通过奖励模型优化对自然语言指令的响应。

奖励模型基于 SFT 检查点初始化，使用 Bradley-Terry 损失在大间隔偏好对上训练，直接在标记级别计算奖励，无需解码波形。PPO 再结合 KL 惩罚项平衡音质与偏差。

Step-Audio-Edit-Test:AI 评测标准

为量化控制能力，团队提出了 Step-Audio-Edit-Test 基准，采用 Gemini2.5Pro 作为评审模型，从情感、风格、副语言三维度评估。

结果显示:

中文情感准确率从57.0% 提升至77.7%;
风格准确率从41.6% 提升至69.2%;
英文结果表现类似。

副语言编辑平均得分也从1.91升至2.89，已接近主流商业系统水平。更令人惊讶的是，Step-Audio-EditX 对闭源系统如 GPT-4o mini TTS、ElevenLabs v2、豆包种子 TTS2.0等均能带来显著提升。

Step-Audio-EditX 代表了可控语音合成的一次真正跃迁。它放弃传统的波形级信号操作，以离散标记为基础，结合大间隔学习与强化优化，使语音编辑的体验首次接近文本编辑的流畅度。

在技术与开放性上，StepFun AI 选择了全堆栈开源（包括模型权重与训练代码），极大地降低了语音编辑研究的门槛。这意味着未来开发者可以像修改文字一样，精准控制语音的情绪、语气与副语言特征。

项目地址:https://stepaudiollm.github.io/step-audio-editx/

论文:https://arxiv.org/pdf/2511.03601

GitHub:https://github.com/stepfun-ai/Step-Audio-EditX

在线体验:https://huggingface.co/spaces/stepfun-ai/Step-Audio-EditX

韩国大学大规模AI作弊丑闻曝光！数百学生被卷入风波

韩国延世大学“自然语言处理与ChatGPT”课程曝出大规模作弊丑闻，数百学生涉嫌在期中考试中使用ChatGPT等AI工具作弊。教授声明作弊者成绩清零，受影响人数或超选课学生（约600人）半数。该课程为线上授课，期中考试于10月15日通过在线平台进行。

美团推出首款 AI 编程 IDE CatPaw，开启公测

美团AI编程工具Meituan CatPaw开启公测，核心特色是智能Agent与人类协作，提升编程效率。提供Ask和Agent两种模式：Ask适合简单问答需手动选上下文；Agent模式更智能。用户官网下载安装后申请邀请码体验，初始500次调用额度，用完后可申请增加。

Grok支持纯文本生成视频了一句话即可生成带音效视频

xAI旗下Grok Imagine实现纯文本生成短视频，用户输入描述即可在17秒内获得带音效、动态镜头和专业画质的6-15秒视频，无需图像输入或编辑基础。这一升级打通“想法到成片”环节，以高速优势挑战OpenAI Sora和Google Veo的市场地位。

百度推出小度 AI 眼镜 Pro，2299 元、支持多种智能功能

小度AI眼镜Pro上市，售价2299元，提供波士顿和猫眼两款设计，可选墨镜或光致变色镜片，支持配近视镜片，无需夹片。重39克，采用钛合金转轴和可调节鼻托，确保舒适佩戴。搭载索尼1200万像素镜头，支持4K照片拍摄和1440p/30fps视频录制。

AI新闻资讯

最新AI日报

AI 商用·开源产品库

AI 产品排行榜

AI产品提交

AI工具导航

模型库

大模型排行榜

模型供应商

模型服务提交

大模型选型对比

大模型费用计算器

大模型竞技场

MCP服务端

MCP客户端

MCP教程与实践

MCP排行榜

MCP服务提交

MCP实验场

MCP服务调试器

GEO品牌监控分析

GEO 大模型推荐优化

GEO排名查询工具

模型个人电脑配置检测器

模型部署服务器配置计算器

数据集合

智能文档识别解析

Step-Audio-EditX 发布:30亿参数音频 LLM 打开语音“可编辑时代”

AIbase基地

从“模仿声音”到“精准控制”

双码本分词与3B 音频 LLM 架构

大间隔学习与合成数据策略

SFT + PPO:让模型学会听懂指令

Step-Audio-Edit-Test:AI 评测标准

本文来自AIbase日报

相关AI新闻推荐

韩国大学大规模AI作弊丑闻曝光！数百学生被卷入风波

​美团推出首款 AI 编程 IDE CatPaw，开启公测

美团首款 AI IDE 产品 CatPaw 开放公测:研发渗透率超95%，代码生成率破50%

研究揭示 AI 生成社交媒体内容易被识别，情感表达仍待提升

AI日报：广电整治AI动画乱象；360发布大模型安全白皮书；百度推出小度AI眼镜Pro

Grok支持纯文本生成视频了 一句话即可生成带音效视频

​百度推出小度 AI 眼镜 Pro，2299 元、支持多种智能功能

印度财富管理新秀计划招募新毕业生，人工智能助力行业转型

谷歌发布Nested Learning新范式，解决AI“灾难性遗忘”难题

​OpenAI 呼吁政府扩大芯片法案税收优惠以支持数据中心建设

美团推出首款 AI 编程 IDE CatPaw，开启公测

Grok支持纯文本生成视频了一句话即可生成带音效视频

百度推出小度 AI 眼镜 Pro，2299 元、支持多种智能功能

OpenAI 呼吁政府扩大芯片法案税收优惠以支持数据中心建设