小米大模型團隊登頂音頻推理 MMAU 榜,受到DeepSeek-R1啓發
小米技術官方微博宣佈,小米大模型團隊在音頻推理領域取得了顯著進展。他們在受到 DeepSeek-R1的啓發後,率先將強化學習算法應用於多模態音頻理解任務。團隊在短短一週內便以64.5% 的 SOTA(State Of The Art)準確率,登頂國際權威的 MMAU 音頻理解評測榜,並同步將相關技術開源。MMAU(Massive Multi-Task Audio Understanding and Reasoning)評測集是一個測試音頻推理能力的重要標準,涵蓋了一萬條語音、環境音和音樂樣本,旨在考察模型在多種技能上的表現。人類專家在該評測集上的準確率爲82.23%,而