La technologie Vidéo vers Audio (V2A) de DeepMind est une innovation qui combine les pixels vidéo et des invites textuelles en langage naturel pour générer des paysages sonores riches synchronisés avec l'action à l'écran. Cette technologie peut être combinée avec des modèles de génération vidéo tels que Veo pour générer des musiques dramatiques, des effets sonores réalistes ou des dialogues adaptés aux personnages et au ton de la vidéo. Elle permet également de générer des bandes son pour des contenus traditionnels, notamment des archives ou des films muets, ouvrant ainsi de nouvelles possibilités créatives.