AudioLM ist ein von Google Research entwickeltes Framework zur Erzeugung hochwertiger Audiodaten mit langfristiger Konsistenz. Es bildet Eingabe-Audiodaten in diskrete Token-Sequenzen ab und betrachtet die Audiogenerierung als eine Aufgabe des Sprachmodellierens in diesem Repräsentationsraum. Durch Training mit umfangreichen, rohen Audio-Wellenformen lernt AudioLM, natürliche und kohärente Audio-Fortsetzungen zu generieren. Selbst ohne Text oder Annotationen erzeugt es syntaktisch und semantisch sinnvolle Sprachfortsetzungen, wobei Sprecheridentität und Rhythmus erhalten bleiben. Darüber hinaus kann AudioLM kohärente Klaviermusik-Fortsetzungen generieren, obwohl es während des Trainings keine symbolische Musikdarstellung verwendet hat.