द्रव एक स्व-पुनरावर्ती जनरेटिव मॉडल है जो छवियों को असतत कोड में विघटित करके और पाठ टोकन के साथ सुविधा स्थान साझा करके, दृश्य समझ और पाठ निर्माण के निर्बाध एकीकरण को बढ़ावा देता है। इस मॉडल का मुख्य लाभ यह है कि इसे बाहरी पूर्व-प्रशिक्षित दृश्य एम्बेडिंग की आवश्यकता नहीं है, जिससे संसाधनों पर निर्भरता कम हो जाती है, जबकि पैमाने के नियम के माध्यम से समझ और पीढ़ी कार्यों के बीच पारस्परिक संवर्धन प्रभाव का पता चलता है।