La tecnología de vídeo a audio (V2A) de DeepMind es una innovación que combina píxeles de vídeo con indicaciones de texto en lenguaje natural para generar paisajes sonoros ricos sincronizados con la acción en pantalla. Esta tecnología se puede combinar con modelos de generación de vídeo como Veo para crear bandas sonoras dramáticas, efectos de sonido realistas o diálogos que coincidan con los personajes y el tono del vídeo. También puede generar bandas sonoras para material tradicional, incluyendo material de archivo y películas mudas, abriendo un abanico más amplio de oportunidades creativas.