苹果和瑞士洛桑联邦理工学院的研究人员联合开源了一款名为4M-21的大规模多模态视觉模型。与其他专门针对特定任务或数据类型进行优化的模型不同,4M-21具有广泛的通用性和灵活性。尽管只有30亿参数,但它可以提供图像分类、目标检测、语义分割、实例分割、深度估计、表面法线估计等数十种功能。
苹果和瑞士洛桑联邦理工学院(EPFL)的研究人员联合开发了一种任意到任意模态的单一模型,可以在数十种高度多样化的模态上进行训练,并对大规模多模态数据集和文本语料库进行协同训练。该模型被命名为4M-21,它在21种不同的模态下进行训练,比现有的模型至少完成3倍以上的任务,并且不会损失性能。
EPFL-VILAB
4M是一个通过标记化与掩码技术实现多模态扩展的'任意到任意'基础模型训练框架
4M是一个通过标记化与掩码技术扩展至多种模态的'任意到任意'基础模型训练框架
4M是一个训练'任意到任意'多模态基础模型的框架,通过标记化和掩码技术扩展到多种不同模态。