全新音頻問答模型 Omni-R1:利用文本驅動的強化學習和自動生成的數據推進音頻問答
最近,一項來自 MIT CSAIL、哥廷根大學、IBM 研究所等機構的研究團隊提出了一個名爲 Omni-R1的全新音頻問答模型。該模型在 Qwen2.5-Omni 的基礎上,通過一種名爲 GRPO(Group Relative Policy Optimization)的強化學習方法進行優化,顯示出在音頻問答任務中的出色表現。Omni-R1在著名的 MMAU 基準測試中創造了新的最先進成績,涵蓋了聲音、語音和音樂等多個音頻類別。研究團隊指出,儘管模型的訓練涉及音頻數據,但其性能提升的主要原因竟然是文本推理能力的增強。這一發現讓人驚訝,因爲即使僅使用