昆仑天工发布音乐大模型Mureka V8,核心基于MusiCoT技术体系升级。该模型通过深层建模音乐结构、段落逻辑与表达意图,实现更接近人类创作逻辑的旋律发展与情绪铺陈,显著提升音乐性、编曲完成度、人声表达及音质质感。
昆仑万维发布Mureka V8音乐大模型,推动AI音乐创作进入质变新阶段。该模型在音乐性、人声表现力和音质质感三大维度实现突破,显著缩小了AI生成内容与专业作品间的差距。
MiniMax发布新一代音乐大模型Music2.5,通过技术创新显著提升AI音乐的专业性与听感。模型重点突破两大核心技术:段落级强控制,精准把握音乐结构,使乐曲逻辑更严密;物理级高保真,大幅提升音频质量。
昆仑万维发布Mureka V8音乐大模型,在旋律流畅性、人声表现力、编曲结构及情绪渲染上达到行业顶尖水平,实测表现超越Suno。同时启动Mureka Studio工具内测,推动AI技术赋能专业音乐创作。
NotaGen 是一个用于符号音乐生成的模型,采用大语言模型训练范式,专注于生成高质量古典乐谱。
集成音乐能力的开源LLM
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
Baidu
128
$2
$20
$6
$24
$8
$240
52
Bytedance
$1.2
$3.6
4
nvidia
音频火烈鸟3是一款完全开源的先进大型音频语言模型,能够提升对语音、声音和音乐的推理与理解能力。
OpenMuQ
MuQ是通过自监督学习预训练的大型音乐基础模型,在多种音乐信息检索任务中达到最优水平;MuQ-MuLan是通过对比学习训练的音乐-文本联合嵌入模型,支持中英文文本检索和匹配。
nectec
Pathumma-llm-audio-1.0.0是一个80亿参数的泰语大语言模型,专为音频理解任务设计,能够处理语音、通用音频和音乐等多种音频输入。
BigVGAN 是一款由 NVIDIA 开发的大规模训练的通用神经声码器。它通过对抗性生成网络(GAN)架构,将梅尔频谱图等声学特征转换为高质量、高保真的音频波形。该模型在多种音频类型(如语音、环境声、音乐)上进行了大规模训练,支持多种采样率和配置,以其卓越的音频质量和通用性在语音合成领域表现出色。
stanford-crfm
这是一个拥有7.8亿参数的大型Transformer模型,专门用于音乐生成和转录任务,采用前瞻性训练方法。
declare-lab
Mustango是一个专为可控音乐生成而设计的全新多模态大语言模型,融合了潜在扩散模型(LDM)、Flan-T5和音乐特征来实现高质量的文本到音乐生成。
一个基于模型上下文协议(MCP)的服务,允许大型语言模型搜索、下载和播放YouTube音乐。