近日,中国科学院自动化研究所与中科紫东太初团队联手推出了一种新方法 ——Vision-R1,利用类 R1强化学习技术,显著提升了视觉定位的能力。这个方法不仅在目标检测和视觉定位等复杂任务上实现了50% 的性能提升,甚至超过了参数规模超过10倍的现有最优模型(SOTA)。当前,图文大模型通常依赖 “预训练 + 监督微调” 的方法来提高对用户指令的响应能力,但这种方法在资源消耗和训练效率上都存在较大挑战。Vision-R1通过结合高质量的指令对齐数据和强化学习,创新性地改变了这一局面
在人工智能的赛道上,中国正以自主创新的姿态稳步前行。11月26日,全球首个千亿参数多模态大模型"紫东太初"3.0在武汉正式亮相,为国产AI技术再添浓墨重彩的一笔。这不仅仅是一个技术迭代,更是中国AI生态系统的重要里程碑。由中国科学院自动化研究所、华为公司和武汉东湖高新区三方联合打造的"紫东太初",已经成功构建了全球首个覆盖图、文、音三模态的预训练模型。图源备注:图片由AI生成,图片授权服务商Midjourney紫东太初3.0最大的突破在于实现了多模态统一原生编码,这意味
{"1":"北京首批 5 款 AI 大模型产品已经通过备案,将正式向公众提供服务。","2":"这标志着国内科技企业在语音、图像、文本生成等领域取得重大突破。","3":"百度的文心一言、抖音的云雀、百川智能的百川大模型、质谱清言和紫东太初是其中的产品。"}
全模态大模型,拥有更强的认知、理解、创作能力