蘋果和瑞士洛桑聯邦理工學院的研究人員聯合開源了一款名爲4M-21的大規模多模態視覺模型。與其他專門針對特定任務或數據類型進行優化的模型不同,4M-21具有廣泛的通用性和靈活性。儘管只有30億參數,但它可以提供圖像分類、目標檢測、語義分割、實例分割、深度估計、表面法線估計等數十種功能。
蘋果和瑞士洛桑聯邦理工學院(EPFL)的研究人員聯合開發了一種任意到任意模態的單一模型,可以在數十種高度多樣化的模態上進行訓練,並對大規模多模態數據集和文本語料庫進行協同訓練。該模型被命名爲4M-21,它在21種不同的模態下進行訓練,比現有的模型至少完成3倍以上的任務,並且不會損失性能。
EPFL-VILAB
4M是一個通過標記化與掩碼技術實現多模態擴展的'任意到任意'基礎模型訓練框架
4M是一個通過標記化與掩碼技術擴展至多種模態的'任意到任意'基礎模型訓練框架
4M是一個訓練'任意到任意'多模態基礎模型的框架,通過標記化和掩碼技術擴展到多種不同模態。