快手Kling 2.6版本推出语音与动作控制两大功能,实现原生音频生成并提升复杂动作处理精度。语音控制可生成匹配视频的音效、人声和音乐,支持个性化声音定制。
字节跳动推出“Seedance1.5Pro”音视频创作模型,现已上线豆包平台。该模型实现“文字-画面-声音”一体化生成,能深度理解文本意图,同步创作匹配的画面、音效与人物台词,有效避免音画脱节,并提升人物“开口说话”的自然度,让普通用户也能轻松制作有声视频。
阿里巴巴12月16日发布新一代万相2.6系列模型,针对影视制作和图像创作全面升级,号称“全球功能最全的视频生成模型”。该模型已上线阿里云百炼和官网,核心亮点包括国内首个“角色扮演”功能,并支持音画同步、多镜头生成及声音驱动等,在画质、音效等方面实现技术突破。
德国初创公司Mirelo完成4100万美元种子轮融资,由Index Ventures和Andreessen Horowitz领投。该公司专注于开发AI技术,为视频内容自动添加同步音效,解决现有AI视频工具缺乏音频支持的问题。其发布的Mirelo SFX v1.5模型能解析视频并匹配音效,提升视频创作体验。
在insMind使用Sora 2生成无水印视频,含音效、特效与逼真动作
最新视频生成模型,更真实、可控,支持同步对话与音效。
创造令人惊叹的AI视频,使用VO3 AI,这是一款先进的视频生成器,无缝结合音效、对话和环境音效,提供沉浸式观看体验。
在线AI音乐生成器,帮助用户免费创作歌曲、节拍、DJ音效等。
Alibaba
-
Input tokens/M
Output tokens/M
Context Length
walterheart
Bark是由Suno创建的基于Transformer的文本转音频模型,可生成高度逼真的多语言语音、音乐、背景噪音和音效。
facebook
MAGNeT是一款基于非自回归Transformer的文本生成音乐与音效模型,能够根据文本描述生成高质量音频样本。
ylacombe
Bark是由Suno创建的基于Transformer的文本转音频模型,能生成高度逼真的多语言语音、音乐、背景噪音和简单音效。
declare-lab
TANGO是基于潜在扩散模型的文本转音频生成工具,能够根据文本提示生成包括人声、动物声音、自然与人工音效在内的逼真音频。
suno
TANGO是基于指令引导扩散的文本转音频模型,能够根据文本提示生成包括人声、动物声音、自然与人工音效在内的逼真音频。
该项目通过Model Context Protocol(MCP)让大型语言模型直接理解和生成Max音频处理软件中的音效模块,支持解释、修改和创建音效模块,并提供与LLM的交互界面。
Cursor AI代码生成后播放音效的MCP实现
一个基于MCP协议的服务器,用于在代理任务完成时发送带有音效的桌面通知,支持跨平台运行。
Cursor Sound MCP是一个通过MCP协议实现的音效反馈工具,在Cursor AI完成代码生成时播放音效,提升交互体验。
一个为Cursor/Windsurf代码生成工具提供系统通知音效的MCP服务,在代码生成完成或需要用户批准时通过macOS系统音效进行提醒。
AI-StoryLab是一个基于Next.js的智能故事创作平台,提供故事生成、语音合成、音效添加和绘图提示词生成功能,支持中英文内容创作。
一个基于Model Context Protocol的通知服务,允许AI代理在任务完成时播放提示音。提供开箱即用的预置音效库,支持跨平台运行和自定义音效配置。