国内AI公司阶跃星辰发布Step-Audio-EditX模型,实现用自然语言指令编辑语音。用户只需输入文字要求,即可精准调整音色、情绪、节奏等,让语音编辑如修改文档般直观高效。30亿参数确保性能强大。
StepFun AI发布开源项目Step-Audio-EditX,基于30亿参数音频语言模型,将语音编辑转化为类似文本标记的可控操作,突破传统波形处理模式。该技术有望实现"像编辑文本一样编辑语音"的直观交互,相关论文已发布于arXiv平台(编号2511.03601)。
StepFun AI发布开源音频编辑模型Step-Audio-EditX,该3B参数模型将音频编辑转化为类似文本编辑的令牌操作,实现直接可控的语音编辑。它解决了当前零样本文本转语音系统在情感、风格等控制上的局限,使表达性语音编辑更简单精确。
Adobe Max大会展示多项AI实验工具,统称"Sneaks",涵盖照片、视频、音频编辑。核心功能"帧前移"让视频编辑如修图般简单,结合光线重塑、语音修正等AI技术,重构创作流程,展现未来创意生产力方向。
零样本语音编辑和文本转语音技术
文本和语音驱动的人体视频生成,从单张人物输入图像生成视频。
语音编辑、智能制图、AI模型提供高效的创作服务
AI语音和视频生成
inclusionAI
Ming-flash-omni 预览版是基于 Ling-Flash-2.0 稀疏专家混合(MoE)架构构建的多模态大模型,总参数达100B,每个token仅激活6B参数。该模型在Ming-Omni基础上进行了全面升级,在多模态理解和生成方面有显著提升,特别是在语音识别、图像生成和分割编辑方面表现突出。
铭音通是一个创新的统一语音框架,将语音理解、生成和编辑功能整合为一体。它采用统一的连续语音分词器,能在端到端模型中有效融合语义和声学特征,是首个仅通过自然语言指令就能实现通用、自由形式语音编辑的系统。
XiaomiMiMo
MiMo Audio是一款基于大规模预训练的音频语言模型,在语音智能和音频理解基准测试中取得了开源模型的SOTA性能。该模型展现出强大的少样本学习能力,能够泛化到训练数据中未包含的任务,支持语音转换、风格迁移和语音编辑等多种音频任务。
pyp1
VoiceCraft 是一个高质量的文本转语音模型,支持零样本语音合成和编辑。
Chatty MCP是一款为编辑器设计的语音交互插件,能在完成AI请求后通过语音总结操作内容,提升多任务处理效率,支持自定义语音引擎。
该项目实现了一个Vapi语音AI与Cursor编辑器集成的MCP服务器,提供语音呼叫、助手管理等功能。
Voicevox MCP Server是一个VOICEVOX兼容的语音合成服务器,通过MCP协议实现与AivisSpeech/VOICEVOX/COEIROINK的交互,支持Cursor等编辑器中的Claude 3.7代理模式语音合成。
Minimax MCP Tools是一个集成Minimax API的MCP服务器实现,提供AI图像生成和文本转语音功能,支持与Windsurf编辑器无缝集成。