HOI-स्वैप एक प्रसार मॉडल पर आधारित वीडियो संपादन ढाँचा है जो वीडियो संपादन में हाथ और वस्तु के बीच जटिल अंतःक्रिया को संभालने पर केंद्रित है। यह मॉडल स्व-पर्यवेक्षित प्रशिक्षण के माध्यम से, एकल फ्रेम में वस्तुओं के आदान-प्रदान को प्राप्त कर सकता है और वस्तु के गुणों में परिवर्तन के अनुसार हाथ की अंतःक्रिया विधि को समायोजित करना सीख सकता है, जैसे हाथों की पकड़ का तरीका। दूसरा चरण एकल-फ्रेम संपादन को संपूर्ण वीडियो अनुक्रम तक विस्तारित करता है, गति संरेखण और वीडियो निर्माण के माध्यम से उच्च-गुणवत्ता वाले वीडियो संपादन को प्राप्त करता है।