A tecnologia de vídeo para áudio (V2A) é uma inovação da DeepMind que combina pixels de vídeo com prompts de texto em linguagem natural para gerar paisagens sonoras ricas sincronizadas com a ação na tela. Essa tecnologia pode ser combinada com modelos de geração de vídeo, como o Veo, para gerar trilhas sonoras dramáticas, efeitos sonoros realistas ou diálogos que combinam com os personagens e o tom do vídeo. Ela também pode gerar trilhas sonoras para materiais tradicionais, incluindo arquivos e filmes mudos, abrindo uma gama maior de oportunidades criativas.