特斯拉2025节日更新引入xAI的Grok聊天机器人,深度集成导航功能。用户可通过语音指令添加或编辑多个目的地,系统自动规划路线并在中控屏可视化展示,实现“语音即目的地”的便捷导航体验。
谷歌视频编辑平台Vids向所有用户免费开放AI功能,包括语音配音、自动去除冗余口语和图像编辑等。用户只需上传视频,系统即可自动识别并精简冗余内容。
国内AI公司阶跃星辰发布Step-Audio-EditX模型,实现用自然语言指令编辑语音。用户只需输入文字要求,即可精准调整音色、情绪、节奏等,让语音编辑如修改文档般直观高效。30亿参数确保性能强大。
StepFun AI发布开源项目Step-Audio-EditX,基于30亿参数音频语言模型,将语音编辑转化为类似文本标记的可控操作,突破传统波形处理模式。该技术有望实现"像编辑文本一样编辑语音"的直观交互,相关论文已发布于arXiv平台(编号2511.03601)。
AI语音克隆视频生成平台,可利用名人内容制作吸睛视频。
零样本语音编辑和文本转语音技术
文本和语音驱动的人体视频生成,从单张人物输入图像生成视频。
语音编辑、智能制图、AI模型提供高效的创作服务
Google
$0.7
Input tokens/M
$2.8
Output tokens/M
1k
Context Length
Alibaba
-
$8
$240
52
$3.9
$15.2
64
$15.8
$12.7
Bytedance
$0.8
$2
128
Tencent
32
$2.4
$12
8
$3
$9
$1.6
$10
$1.5
inclusionAI
Ming-flash-omni 预览版是基于 Ling-Flash-2.0 稀疏专家混合(MoE)架构构建的多模态大模型,总参数达100B,每个token仅激活6B参数。该模型在Ming-Omni基础上进行了全面升级,在多模态理解和生成方面有显著提升,特别是在语音识别、图像生成和分割编辑方面表现突出。
铭音通是一个创新的统一语音框架,将语音理解、生成和编辑功能整合为一体。它采用统一的连续语音分词器,能在端到端模型中有效融合语义和声学特征,是首个仅通过自然语言指令就能实现通用、自由形式语音编辑的系统。
XiaomiMiMo
MiMo Audio是一款基于大规模预训练的音频语言模型,在语音智能和音频理解基准测试中取得了开源模型的SOTA性能。该模型展现出强大的少样本学习能力,能够泛化到训练数据中未包含的任务,支持语音转换、风格迁移和语音编辑等多种音频任务。
pyp1
VoiceCraft 是一个高质量的文本转语音模型,支持零样本语音合成和编辑。
Chatty MCP是一款为编辑器设计的语音交互插件,能在完成AI请求后通过语音总结操作内容,提升多任务处理效率,支持自定义语音引擎。
该项目实现了一个Vapi语音AI与Cursor编辑器集成的MCP服务器,提供语音呼叫、助手管理等功能。
Minimax MCP Tools是一个集成Minimax API的MCP服务器实现,提供AI图像生成和文本转语音功能,支持与Windsurf编辑器无缝集成。
Voicevox MCP Server是一个VOICEVOX兼容的语音合成服务器,通过MCP协议实现与AivisSpeech/VOICEVOX/COEIROINK的交互,支持Cursor等编辑器中的Claude 3.7代理模式语音合成。