Recientemente, el equipo de voz del Laboratorio Tongyi ha logrado un hito en el campo de la generación de audio espacial, lanzando la tecnología OmniAudio, que puede generar directamente audio FOA (Primera Orden de Ambisonics) a partir de videos de 360 grados. Esto abre nuevas posibilidades para la realidad virtual y el entretenimiento inmersivo.
El audio espacial es una tecnología que simula el entorno auditivo real y mejora la experiencia inmersiva. Sin embargo, las tecnologías existentes suelen basarse en videos de ángulo fijo, utilizando de manera insuficiente la información espacial de los videos panorámicos. Las técnicas tradicionales de conversión de video a audio generalmente generan audio no espacial, lo que no satisface las necesidades de posicionamiento de sonido 3D en experiencias inmersivas. Además, muchas de estas técnicas están limitadas por los videos de ángulo limitado, perdiendo el contexto visual rico de los videos panorámicos. Con la popularización de cámaras de 360 grados y el desarrollo de la tecnología de realidad virtual, se vuelve urgente resolver el problema de generar audio espacial compatible con videos panorámicos.
Para abordar este desafío, el Laboratorio Tongyi propuso la tarea de 360V2SA (Video de 360 Grados a Audio Espacial). FOA es un formato estándar de audio 3D que utiliza cuatro canales (W, X, Y, Z) para representar el sonido, capturando la direccionalidad del sonido y permitiendo la reproducción realista de audio 3D. Además, mantiene la precisión de localización del sonido incluso cuando la cabeza gira.
Los datos son la base de los modelos de aprendizaje automático, pero los pares de datos de video panorámico y audio espacial disponibles son escasos. Por lo tanto, el equipo de investigación construyó cuidadosamente el conjunto de datos Sphere360, que incluye más de 103,000 fragmentos de video del mundo real, cubriendo 288 tipos de eventos de audio, con un total de 288 horas de duración. Contiene contenido visual de 360 grados y soporta audio FOA. Durante el proceso de construcción, el equipo aplicó estrictos criterios de selección y limpieza, utilizando varios algoritmos para garantizar una alineación de alta calidad.
El método de entrenamiento de OmniAudio se divide en dos etapas. En la primera etapa, se realiza una preentrenamiento supervisado coarse-to-fine mediante flujo de emparejamiento. El equipo aprovechó los recursos masivos de audio no espacial para convertir estéreo en formato "pseudo-FOA", luego enviarlo al codificador VAE de cuatro canales para obtener representaciones latentes. Luego, con una cierta probabilidad, se aplicó una máscara de ventana temporal aleatoria, y la secuencia latente después de la máscara, junto con la secuencia completa, se utilizaron como condiciones de entrada para el modelo de flujo de emparejamiento, logrando un aprendizaje autosovente de la secuencia temporal y estructura del audio, lo que permitió al modelo adquirir características generales del audio y regularidades temporales macroscópicas. En la segunda etapa, se realizó un ajuste fino supervisado basado en la representación de video de doble rama. Solo se utilizaron datos reales de audio FOA, continuando con el marco de entrenamiento de emparejamiento de ventanas temporales aleatorias, fortaleciendo la capacidad del modelo para representar la dirección de la fuente de sonido y mejorando el efecto de reconstrucción de detalles de audio espacial de alta fidelidad. Después de completar el preentrenamiento autosovente, el equipo combinó el modelo con un codificador de video de doble rama para realizar un ajuste fino supervisado, "esculpindo" de manera selectiva un recorrido potencial FOA que coincida con las indicaciones visuales desde el ruido, produciendo un audio espacial de cuatro canales que se alinea高度 con el video de 360 grados y tiene una sensación de dirección precisa.
En las configuraciones experimentales, el equipo investigador realizó ajustes finos y evaluaciones en los conjuntos de pruebas Sphere360-Bench y YT360-Test, utilizando métricas objetivas y subjetivas para medir la calidad del audio generado. Los resultados mostraron que OmniAudio superó significativamente a todos los modelos base en ambos conjuntos de pruebas. En YT360-Test, OmniAudio redujo considerablemente los valores de FD, KL y ΔAngular; también obtuvo excelentes resultados en Sphere360-Bench. En las evaluaciones subjetivas humanas, OmniAudio obtuvo puntajes mucho más altos que el mejor modelo base en términos de calidad del audio espacial y alineación visivo-auditiva, lo que demuestra que sus resultados sintéticos son más claros, espaciales y sincronizados con la imagen. Además, los experimentos de ablación validaron el aporte de la estrategia de preentrenamiento, el diseño de doble rama y el tamaño del modelo al mejorar el rendimiento.
Página del proyecto
https://omniaudio-360v2sa.github.io/
Repositorio de código y datos abiertos
https://github.com/liuhuadai/OmniAudio
Dirección del artículo
https://arxiv.org/abs/2504.14906