Recientemente, ByteDance lanzó una nueva herramienta para la creación musical llamada Seed-Music. Este asombroso modelo de generación musical te permite generar música fácilmente a través de múltiples métodos de entrada (como descripciones de texto, referencias de audio, partituras, incluso indicaciones de voz), ¡como tener un mago musical a tu disposición!
Seed-Music combina modelos de lenguaje autorregresivo y modelos de difusión, no solo para generar obras musicales de alta calidad, sino también para permitirte controlar con precisión los detalles de la música. Ya sea que quieras música para letras o quieras adaptar una melodía, aquí no hay problema. Incluso puedes subir un pequeño fragmento de audio y el sistema lo convertirá automáticamente en una canción completa, de forma sencilla y eficiente.
El potente Seed-Music no solo admite la generación de voces e instrumentos, sino que también incluye una serie de funciones como síntesis de voz, conversión de voz y edición musical, para satisfacer las necesidades de diferentes usuarios. Puedes generar música pop con una simple descripción de texto, o ajustar el estilo musical con indicaciones de audio, una experiencia realmente innovadora.
Lo que es más interesante es que la arquitectura de Seed-Music se divide en tres módulos: módulo de aprendizaje de representación, módulo de generación y módulo de renderizado. Estos módulos trabajan juntos como una banda, generando música de alta calidad a partir de entradas multimodales.

El módulo de aprendizaje de representación comprime las señales de audio originales en tres representaciones intermedias, adecuadas para diferentes tareas de generación y edición musical. El módulo de generación, a través de modelos autorregresivos y modelos de difusión, convierte la entrada del usuario en una representación musical. El módulo de renderizado final se encarga de convertir estas representaciones intermedias en audio de alta calidad que puedes disfrutar.
Para garantizar la calidad de la música, Seed-Music utiliza varias técnicas: los modelos de lenguaje autorregresivo generan gradualmente símbolos de audio, los modelos de difusión utilizan técnicas de eliminación de ruido para hacer que la música sea más clara, y los codificadores de voz traducen este "código" musical en sonido de alta fidelidad reproducible.
El proceso de entrenamiento de Seed-Music también es interesante, dividido en tres etapas: preentrenamiento, ajuste fino y postentrenamiento. A través de una gran cantidad de datos musicales, el modelo adquiere capacidades básicas, luego se mejora mediante el ajuste fino para tareas específicas, y finalmente se optimiza continuamente el resultado de la generación mediante aprendizaje por refuerzo.
Dirección del proyecto: https://team.doubao.com/en/special/seed-music





