Récemment, une équipe de recherche des instituts MIT CSAIL, de l'université de Göttingen et d'IBM Research a proposé un tout nouveau modèle d'audio-question-réponse appelé Omni-R1. Basé sur le modèle Qwen2.5-Omni, ce modèle a été optimisé à l'aide d'une méthode d'apprentissage par renforcement appelée GRPO (Group Relative Policy Optimization), démontrant des performances exceptionnelles dans les tâches d'audio-question-réponse.

image.png

Omni-R1 a établi un nouveau record dans le benchmark MMAU, couvrant plusieurs catégories d'audios comme le son, la parole et la musique. L'équipe de recherche a souligné que, bien que la formation du modèle implique des données audio, l'amélioration principale de ses performances provient en fait de la capacité accrue de raisonnement textuel. Cette découverte est surprenante, car même lorsqu'il est ajusté uniquement avec des données textuelles, le modèle montre également une amélioration significative.

Pour cela, les chercheurs ont utilisé ChatGPT pour générer un grand volume de données QA audio, créant ainsi deux nouveaux jeux de données : AVQA-GPT et VGGS-GPT. Chacun de ces deux jeux de données contient respectivement 40 000 et 182 000 données audio, ce qui a considérablement amélioré l'exactitude d'Omni-R1. Pendant le processus de formation, Omni-R1 a surpassé les modèles de ligne de base précédents, y compris SARI, avec un score moyen atteignant 71,3 %. Les recherches montrent que bien qu'un microajustement avec des données audio soit légèrement plus efficace que celui avec des données textuelles, la contribution des données textuelles ne doit pas être ignorée.

Un avantage clé de la méthode GRPO est son efficacité mémoire, permettant de fonctionner efficacement sur une carte graphique de 48 Go. Cette méthode attribue des récompenses en comparant les sorties groupées, basées sur la correction de la réponse, sans avoir besoin de fonctions de valeur complexes. Les chercheurs ont augmenté les données d'entraînement en étendant la description audio de Qwen-2Audio, cette stratégie rendant le modèle plus compétitif dans les tâches multimodales.

Outre l'établissement d'un nouveau standard dans le domaine des questions-réponses audio, Omni-R1 illustre également l'importance du raisonnement textuel dans les performances des modèles audio. À l'avenir, l'équipe de recherche s'est engagée à publier toutes les ressources liées, afin que davantage de chercheurs et développeurs puissent tirer parti de cet accomplissement.

Article : https://arxiv.org/abs/2505.09439

Points saillants :   

🔍 Omni-R1 est un modèle d'audio-question-réponse basé sur le modèle Qwen2.5-Omni, optimisé à l'aide de la méthode d'apprentissage par renforcement GRPO.  

📈 Ce modèle a atteint de nouveaux sommets dans le test de référence MMAU, et l'amélioration de la capacité de raisonnement textuel est considérée comme la principale raison.  

🛠️ L'équipe de recherche a créé de nouveaux ensembles de données via ChatGPT, ce qui a grandement amélioré les performances et la précision du modèle.