Google DeepMind 新推出的 Lyria 3 Pro 模型将音乐生成时长从 30 秒大幅提升至 3 分钟,并新增“结构感知”能力,使模型能理解并生成包含前奏、主歌、副歌等完整结构的歌曲,突破了此前仅能生成背景音效的限制。
蚂蚁集团开源全模态大模型Ming-Flash-Omni2.0,在视觉语言理解、语音生成、图像处理等多项基准测试中表现优异,部分指标超越Gemini2.5Pro。该模型首创全场景音频统一生成能力,支持在同一条音轨中生成语音、音效和音乐,用户通过自然语言指令即可调整音色、语速等参数。
字节跳动推出“Seedance1.5Pro”音视频创作模型,现已上线豆包平台。该模型实现“文字-画面-声音”一体化生成,能深度理解文本意图,同步创作匹配的画面、音效与人物台词,有效避免音画脱节,并提升人物“开口说话”的自然度,让普通用户也能轻松制作有声视频。
阿里巴巴12月16日发布新一代万相2.6系列模型,针对影视制作和图像创作全面升级,号称“全球功能最全的视频生成模型”。该模型已上线阿里云百炼和官网,核心亮点包括国内首个“角色扮演”功能,并支持音画同步、多镜头生成及声音驱动等,在画质、音效等方面实现技术突破。
最新视频生成模型,更真实、可控,支持同步对话与音效。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$2
$20
$6
$24
Baidu
128
walterheart
Bark是由Suno创建的基于Transformer的文本转音频模型,可生成高度逼真的多语言语音、音乐、背景噪音和音效。
facebook
MAGNeT是一款基于非自回归Transformer的文本生成音乐与音效模型,能够根据文本描述生成高质量音频样本。
ylacombe
Bark是由Suno创建的基于Transformer的文本转音频模型,能生成高度逼真的多语言语音、音乐、背景噪音和简单音效。
declare-lab
TANGO是基于潜在扩散模型的文本转音频生成工具,能够根据文本提示生成包括人声、动物声音、自然与人工音效在内的逼真音频。
suno
TANGO是基于指令引导扩散的文本转音频模型,能够根据文本提示生成包括人声、动物声音、自然与人工音效在内的逼真音频。
该项目通过Model Context Protocol(MCP)让大型语言模型直接理解和生成Max音频处理软件中的音效模块,支持解释、修改和创建音效模块,并提供与LLM的交互界面。