Kürzlich hat ein Forscherteam von der MIT CSAIL, der Universität Göttingen und dem IBM Research Institute einen neuen Audio-Frageantwort-Modell namens Omni-R1 vorgestellt. Dieses Modell wurde auf der Basis des Qwen2.5-Omni-Modells optimiert, indem es eine neuartige verstärkte Lernmethode namens GRPO (Group Relative Policy Optimization) verwendet. Das Modell zeigt außergewöhnliche Leistungen bei Audio-Frageantwort-Aufgaben.

image.png

Omni-R1 hat in der bekannten MMAU-Benchmark-Testreihe neue Spitzenleistungen erzielt, die sich auf verschiedene Audiodomänen wie Töne, Sprache und Musik erstrecken. Das Forschungsteam hat bemerkt, dass die Hauptursache für die Leistungssteigerung des Modells nicht in den audiomäßigen Daten liegt, sondern in der verbesserten textbasierten Inferenzfähigkeit. Diese Erkenntnis ist überraschend, da sogar nur durch Mikroanpassungen mit Textdaten eine signifikante Verbesserung erreicht werden konnte.

Um dies zu unterstützen, haben die Forscher mit ChatGPT große Mengen an Audio-Frageantwort-Daten generiert und zwei neue Datensätze erstellt: AVQA-GPT und VGGS-GPT. Diese Datensätze enthalten jeweils 40.000 und 182.000 Audiodatensätze, was die Genauigkeit von Omni-R1 weiter erhöht hat. Während des Trainings übertraf das Modell alle bisherigen Basismodelle, einschließlich SARI, mit einem durchschnittlichen Score von 71,3 %. Die Studie zeigt, dass das mikroanpassen mit Audiodaten leicht besser als nur mit Text ist, aber letzteres auch nicht zu vernachlässigen ist.

Ein wesentlicher Vorteil der GRPO-Methode ist ihre Speichereffizienz, was es ermöglicht, sie auf GPUs mit 48 GB RAM effizient auszuführen. Durch den Vergleich gruppiert der Ausgabe basierend auf der Korrektheit der Antwort wird Belohnung verteilt, ohne komplexe Wertefunktionen zu verwenden. Durch die Erweiterung der Qwen-2Audio-Audiodeskriptionen um Trainingsdaten wurde die Konkurrenzfähigkeit des Modells in multimodalen Aufgaben gesteigert.

Omni-R1 hat nicht nur neue Maßstäbe in der Audio-Frageantwortdomäne gesetzt, sondern auch die Bedeutung der textbasierten Inferenz für die Leistungsfähigkeit von Audio-Modellen unter Beweis gestellt. In Zukunft wird das Forschungsteam alle relevanten Ressourcen veröffentlichen, damit weitere Forscher und Entwickler diese Errungenschaft nutzen können.

Papier: https://arxiv.org/abs/2505.09439

Hervorzuheben:

🔍 Omni-R1 ist ein Audio-Frageantwort-Modell, das auf dem Qwen2.5-Omni-Modell basiert und durch die verstärkte GRPO-Lernmethode optimiert wurde.  

📈 Das Modell erreichte in der MMAU-Benchmark-Testreihe neue Spitzenleistungen, wobei die Verbesserung der textbasierten Inferenzfähigkeit als Hauptursache gilt.  

🛠️ Das Forschungsteam hat durch die Generierung neuer Datensätze mit ChatGPT die Trainingswirkung und Präzision des Modells erheblich verbessert.