O PixelPlayer é um sistema capaz de aprender a localizar as áreas de uma imagem que produzem som e separar o áudio de entrada em um conjunto de componentes que representam o som de cada pixel, apenas observando uma grande quantidade de vídeos sem anotações. Nossa abordagem utiliza a sincronia natural bimodal (visual e auditiva), aprendendo um modelo para analisar conjuntamente o áudio e a imagem sem necessidade de anotações adicionais feitas manualmente. O sistema foi treinado usando uma grande quantidade de vídeos de treinamento contendo diferentes composições musicais de solos e duetos com diversas combinações de instrumentos. Nenhuma supervisão foi fornecida para indicar quais instrumentos estavam presentes, suas posições ou seus timbres em cada vídeo. Na fase de teste, a entrada do sistema é um vídeo mostrando diferentes instrumentos sendo tocados e uma entrada de áudio mono. O sistema realiza a separação e localização de fontes audiovisuais, separando o sinal de áudio de entrada em N canais de áudio, cada um correspondendo a uma categoria diferente de instrumento. Além disso, o sistema pode localizar o som e atribuir diferentes formas de onda de áudio a cada pixel do vídeo de entrada.