阶跃星辰开源语音推理模型Step-Audio-R1.1在权威评测中夺冠,以96.4%准确率超越多个主流闭源模型,刷新历史纪录。
StepFun AI团队推出音频大模型Step-Audio-R1,通过优化计算资源利用,解决了音频AI模型在长推理链中准确性下降的问题。研究团队指出,问题源于训练时过度依赖文本数据,导致模型推理类似阅读文字而非实际聆听声音。
国内AI公司阶跃星辰发布Step-Audio-EditX模型,实现用自然语言指令编辑语音。用户只需输入文字要求,即可精准调整音色、情绪、节奏等,让语音编辑如修改文档般直观高效。30亿参数确保性能强大。
StepFun AI发布开源项目Step-Audio-EditX,基于30亿参数音频语言模型,将语音编辑转化为类似文本标记的可控操作,突破传统波形处理模式。该技术有望实现"像编辑文本一样编辑语音"的直观交互,相关论文已发布于arXiv平台(编号2511.03601)。
Step-Audio是一个开源智能语音交互框架,支持多语言对话、情感语调和语音克隆等功能。
stepfun-ai
Step-Audio 2 是一款端到端的多模态大语言模型,专为满足行业级音频理解和语音对话需求而设计。具备先进的语音和音频理解能力、智能语音对话功能、工具调用和多模态检索增强生成能力,在多个音频理解和对话基准测试中取得了领先的性能。