AIBase
首页
AI资讯
AI产品库
模型广场
MCP服务
AI服务
算力市场
数据集市
AI应用指南
ZH

AI资讯

查看更多

全新音频问答模型 Omni-R1:利用文本驱动的强化学习和自动生成的数据推进音频问答

最近,一项来自 MIT CSAIL、哥廷根大学、IBM 研究所等机构的研究团队提出了一个名为 Omni-R1的全新音频问答模型。该模型在 Qwen2.5-Omni 的基础上,通过一种名为 GRPO(Group Relative Policy Optimization)的强化学习方法进行优化,显示出在音频问答任务中的出色表现。Omni-R1在著名的 MMAU 基准测试中创造了新的最先进成绩,涵盖了声音、语音和音乐等多个音频类别。研究团队指出,尽管模型的训练涉及音频数据,但其性能提升的主要原因竟然是文本推理能力的增强。这一发现让人惊讶,因为即使仅使用

15.4k 10-16
全新音频问答模型 Omni-R1:利用文本驱动的强化学习和自动生成的数据推进音频问答
AIBase
智启未来,您的人工智能解决方案智库
English简体中文繁體中文にほんご
友情链接:
AI Newsletters AI ToolsMCP ServersAI NewsAIBaseLLM LeaderboardAI Ranking
© 2025AIBase
商务合作网站地图