डेनॉइजिंग विज़न ट्रांसफॉर्मर्स (DVT) विज़न ट्रांसफॉर्मर्स (ViTs) के लिए एक नया नॉइज़ मॉडल है। ViT आउटपुट का विश्लेषण करके और एक सीखने योग्य डेनॉइज़र को शामिल करके, DVT शोर रहित विशेषताओं को निकाल सकता है, जिससे ऑफ़लाइन अनुप्रयोगों और ऑनलाइन कार्यों में ट्रांसफॉर्मर-आधारित मॉडल के प्रदर्शन में उल्लेखनीय सुधार होता है। DVT को मौजूदा प्री-ट्रेन्ड ViTs को फिर से प्रशिक्षित करने की आवश्यकता नहीं है, इसे किसी भी ट्रांसफॉर्मर-आधारित आर्किटेक्चर में तुरंत लागू किया जा सकता है। कई डेटासेट पर व्यापक मूल्यांकन के माध्यम से, हमने पाया है कि DVT सिमेंटिक और जियोमेट्रिक कार्यों में मौजूदा अत्याधुनिक सामान्य मॉडल में लगातार उल्लेखनीय सुधार करता है (उदाहरण के लिए, +3.84 mIoU)। हम आशा करते हैं कि हमारा शोध ViT डिज़ाइन के पुनर्मूल्यांकन को प्रोत्साहित करेगा, खासकर पोजीशन एम्बेडिंग के भोले उपयोग के संबंध में।