PixelPlayer est un système capable d'apprendre à localiser les zones d'une image produisant du son et à séparer un signal audio d'entrée en un ensemble de composantes représentant le son de chaque pixel, en observant un grand nombre de vidéos non annotées. Notre méthode exploite la synchronisation naturelle bimodale visuelle et auditive pour apprendre un modèle d'analyse conjointe du son et de l'image sans annotation humaine supplémentaire. Le système est entraîné sur un vaste corpus de vidéos contenant des interprétations de solos et de duos avec différentes combinaisons d'instruments. Aucune information sur les instruments présents, leur localisation ou leur sonorité n'est fournie pendant l'entraînement. En phase de test, le système reçoit en entrée une vidéo montrant différents instruments jouant et un signal audio monocanal. Il effectue une séparation et une localisation des sources audiovisuelles, séparant le signal audio d'entrée en N canaux sonores, chaque canal correspondant à une catégorie d'instrument différente. De plus, le système peut localiser le son et assigner une forme d'onde audio différente à chaque pixel de la vidéo d'entrée.