SPARC छवि-पाठ जोड़ियों के पूर्व-प्रशिक्षण के लिए एक सरल तरीका है, जिसका उद्देश्य छवि-पाठ जोड़ियों से अधिक सूक्ष्म बहु-मोडल प्रतिनिधित्व को पूर्व-प्रशिक्षित करना है। यह विरल समानता माप और छवि ब्लॉक और भाषा टोकनों के समूहों का उपयोग करता है, सूक्ष्म क्रम हानि और वैश्विक छवि और पाठ एम्बेडिंग के बीच तुलनात्मक हानि की तुलना करके, वैश्विक और स्थानीय दोनों प्रकार की जानकारी को एन्कोड करने वाले प्रतिनिधित्व को सीखता है। SPARC मोटे दाने वाले जानकारी वाले छवि-स्तरीय कार्यों और सूक्ष्म दाने वाले जानकारी वाले क्षेत्र-स्तरीय कार्यों दोनों में सुधार दिखाता है, जिसमें वर्गीकरण, पुनर्प्राप्ति, ऑब्जेक्ट पहचान और विभाजन शामिल हैं। इसके अलावा, SPARC मॉडल की विश्वसनीयता और छवि वर्णन क्षमता में सुधार करता है।