AIBase
首頁
AI資訊
AI產品庫
模型廣場
MCP服务
AI服務
算力市場
數據集市
AI應用指南
TW

AI資訊

查看更多

全新音頻問答模型 Omni-R1:利用文本驅動的強化學習和自動生成的數據推進音頻問答

最近,一項來自 MIT CSAIL、哥廷根大學、IBM 研究所等機構的研究團隊提出了一個名爲 Omni-R1的全新音頻問答模型。該模型在 Qwen2.5-Omni 的基礎上,通過一種名爲 GRPO(Group Relative Policy Optimization)的強化學習方法進行優化,顯示出在音頻問答任務中的出色表現。Omni-R1在著名的 MMAU 基準測試中創造了新的最先進成績,涵蓋了聲音、語音和音樂等多個音頻類別。研究團隊指出,儘管模型的訓練涉及音頻數據,但其性能提升的主要原因竟然是文本推理能力的增強。這一發現讓人驚訝,因爲即使僅使用

15.4k 10-16
全新音頻問答模型 Omni-R1:利用文本驅動的強化學習和自動生成的數據推進音頻問答
AIBase
智啟未來,您的人工智能解決方案智庫
English简体中文繁體中文にほんご
友情链接:
AI Newsletters AI ToolsMCP ServersAI NewsAIBaseLLM LeaderboardAI Ranking
© 2025AIBase
商務合作網站地圖