PixelPlayer ist ein System, das durch das Betrachten einer großen Menge unbeschrifteter Videos lernt, die Bildbereiche zu lokalisieren, die Geräusche erzeugen, und das Eingangsaudio in eine Reihe von Komponenten aufzuteilen, die den Klang jedes Pixels repräsentieren. Unsere Methode nutzt die natürliche Synchronität von visuellen und auditiven Modalitäten, um ein Modell zu lernen, das Audio und Video gemeinsam analysiert, ohne zusätzliche manuelle Annotationen zu benötigen. Das System wurde mit einer großen Anzahl von Trainingsvideos trainiert, die verschiedene Instrumental-Soli und Duette enthalten. Es wurden keine Informationen darüber bereitgestellt, welche Instrumente zu sehen sind, wo sie sich befinden und wie sie klingen. In der Testphase ist die Eingabe des Systems ein Video, das verschiedene Instrumente zeigt, und ein monaurales Audiosignal. Das System führt eine audio-visuelle Quellenseparation und -lokalisierung durch und trennt das Eingangsaudiosignal in N Audiokanäle, wobei jeder Kanal einer anderen Instrumentenkategorie entspricht. Darüber hinaus kann das System Geräusche lokalisieren und jedem Pixel im Eingangsvideo eine separate Audiowellenform zuordnen.