MiniMax发布新一代AI音乐生成模型Music 2.6,实现从底层引擎到创作工具的全维度升级。核心优化包括大幅降低生成延迟、提升音乐结构连贯性、改善音质与听感,并新增“音乐续写”等创作功能。此次更新旨在为创作者提供更精准、流畅的音乐生成体验,拓宽AI音乐交互边界。
谷歌DeepMind推出增强版音乐创作大模型Lyria 3 Pro,标志着生成式AI在音频领域从生成短乐句迈向全曲创作。该模型音质显著提升,核心突破在于具备“结构意识”,能生成逻辑完整的长音频,实现从“碎片”到“篇章”的进化。
Google DeepMind 新推出的 Lyria 3 Pro 模型将音乐生成时长从 30 秒大幅提升至 3 分钟,并新增“结构感知”能力,使模型能理解并生成包含前奏、主歌、副歌等完整结构的歌曲,突破了此前仅能生成背景音效的限制。
蚂蚁集团开源全模态大模型Ming-Flash-Omni2.0,在视觉语言理解、语音生成、图像处理等多项基准测试中表现优异,部分指标超越Gemini2.5Pro。该模型首创全场景音频统一生成能力,支持在同一条音轨中生成语音、音效和音乐,用户通过自然语言指令即可调整音色、语速等参数。
最强大的本地音乐生成模型,超越大多数商业替代品。
NotaGen 是一个用于符号音乐生成的模型,采用大语言模型训练范式,专注于生成高质量古典乐谱。
集成音乐能力的开源LLM
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$2
$20
Baidu
128
$6
$24
$8
$240
52
Bytedance
$1.2
$3.6
4
nvidia
音频火烈鸟3是一款完全开源的先进大型音频语言模型,能够提升对语音、声音和音乐的推理与理解能力。
OpenMuQ
MuQ是通过自监督学习预训练的大型音乐基础模型,在多种音乐信息检索任务中达到最优水平;MuQ-MuLan是通过对比学习训练的音乐-文本联合嵌入模型,支持中英文文本检索和匹配。
nectec
Pathumma-llm-audio-1.0.0是一个80亿参数的泰语大语言模型,专为音频理解任务设计,能够处理语音、通用音频和音乐等多种音频输入。
BigVGAN 是一款由 NVIDIA 开发的大规模训练的通用神经声码器。它通过对抗性生成网络(GAN)架构,将梅尔频谱图等声学特征转换为高质量、高保真的音频波形。该模型在多种音频类型(如语音、环境声、音乐)上进行了大规模训练,支持多种采样率和配置,以其卓越的音频质量和通用性在语音合成领域表现出色。
stanford-crfm
这是一个拥有7.8亿参数的大型Transformer模型,专门用于音乐生成和转录任务,采用前瞻性训练方法。
declare-lab
Mustango是一个专为可控音乐生成而设计的全新多模态大语言模型,融合了潜在扩散模型(LDM)、Flan-T5和音乐特征来实现高质量的文本到音乐生成。
一个基于模型上下文协议(MCP)的服务,允许大型语言模型搜索、下载和播放YouTube音乐。