昆仑元AI在2025世界计算大会上发布全模态融合模型BaiZe-Omni-14b-a2b,基于昇腾平台,具备文本、音频、图像和视频的理解与生成能力。采用模态解耦编码、统一跨模态融合和双分支功能设计等创新架构,推动多模态应用发展。模型流程包括输入处理、模态适配、融合、核心功能和输出解码。
Quora旗下AI平台Poe推出群聊功能,支持最多200人同时与多种AI模型互动,涵盖文本、图像、视频和音频生成。此举与OpenAI的ChatGPT群聊试点同步,推动AI交互变革,增强用户与亲友或同事的协作交流。
AI音频公司ElevenLabs与奥斯卡得主Matthew McConaughey、Michael Caine达成语音克隆合作,将其AI声线纳入新平台“Iconic Voice Marketplace”。该平台已收录超25位名人语音,提供合法授权使用渠道。McConaughey作为公司投资人,将利用自身声音参与项目。
StepFun AI发布开源项目Step-Audio-EditX,基于30亿参数音频语言模型,将语音编辑转化为类似文本标记的可控操作,突破传统波形处理模式。该技术有望实现"像编辑文本一样编辑语音"的直观交互,相关论文已发布于arXiv平台(编号2511.03601)。
Sora2 AI平台将想法转化为逼真视频,含同步音频和特效,创作轻松
Sora 2是AI视频与音频生成平台,可依文本生成带声音的逼真视频
AI音频广告制作平台,为市场营销人员、品牌和代理商提供便捷的广告创建、团队协作、定位客户、分发和像素分析。免费创建,发布付费。
Zarin是首个开源AI平台,集成了200多个热门和最新的AI多模型,可生成图片、视频、音频、代码、学术论文等。
Anthropic
$7
Input tokens/M
$35
Output tokens/M
200
Context Length
Google
$2.1
$17.5
1k
Alibaba
-
Baidu
128
Bytedance
Tencent
$2
$105
$525
32
Carla MCP服务器是一个专业的音频制作AI控制平台,通过45个工具提供完整的音频插件宿主控制,支持自然语言操作专业音频工作流程
一个为AI代理提供音频播放功能的MCP服务器,可在编码任务完成时播放提示音,支持自定义音频和智能回退机制,目前主要支持macOS平台。