हाल ही में, हांगकॉन्ग विश्वविद्यालय, हांगकॉन्ग चीनी विश्वविद्यालय और सैंग्सोंग टेक्नोलॉजी के अनुसंधान दल ने एक आकर्षक नए फ्रेमवर्क - GoT-R1 जारी किया। इस नए बहुमाध्यमिक बड़े मॉडल ने पुनर्बलन (RL) के परिचय के माध्यम से दृश्य उत्पादन कार्य में AI के अर्थ और अंतरिक्ष तर्क क्षमता में उल्लेखनीय वृद्धि की, जिससे जटिल पाठ संकेतों के उत्पादन में उच्च गुणवत्ता वाली, अर्थपूर्ण रूप से संगत छवियां बनाई गईं। यह प्रगति छवि उत्पादन प्रौद्योगिकी में एक और कूद के रूप में चिह्नित की गई।

वर्तमान में, यद्यपि मौजूदा बहुमाध्यमिक बड़े मॉडल ने पाठ संकेतों के आधार पर छवि उत्पादन में उल्लेखनीय प्रगति की है, लेकिन अक्सर निर्देशों के साथ जटिल स्थानीय संबंधों और जटिल संयोजनों के साथ निपटने में कठिनाइयों का सामना करना पड़ता है। GoT-R1 इस समस्या को हल करने के लिए बनाया गया है। इसके पूर्ववर्ती GoT के सापेक्ष, GoT-R1 ने AI की तर्क क्षमता को बढ़ाया है और अपने तर्क रणनीति के अनुकूलन के स्वयं के अधिकार को भी दिया है।

image.png

GoT-R1 के केंद्र में इसकी पुनर्बलन तकनीक है। टीम ने एक व्यापक और प्रभावी पुरस्कार तंत्र डिज़ाइन किया, जो मॉडल को उपयोगकर्ता के जटिल निर्देशों को समझने में सहायता करता है। इस तंत्र में उत्पादित छवि के अर्थपूर्ण संगतता, स्थानीय व्यवस्था के सटीकता और समग्र सौंदर्य गुणवत्ता के कई मूल्यांकन पहलू शामिल हैं। महत्वपूर्ण बात यह है कि GoT-R1 तर्क प्रक्रिया को दृश्य रूप में दर्शाकर मॉडल को छवि उत्पादन के परिणामों के मूल्यांकन करने में अधिक सटीक बनाता है।

image.png

समग्र मूल्यांकन के बाद, अनुसंधान दल ने पाया कि GoT-R1 T2I-CompBench नामक एक बेंचमार्क परीक्षण में उत्कृष्ट प्रदर्शन करता है, विशेष रूप से जटिल बहु-स्तरीय निर्देशों के साथ निपटने में, अन्य प्रमुख मॉडलों की तुलना में क्षमता दिखाता है। उदाहरण के लिए, "जटिल" बेंचमार्क परीक्षण में, GoT-R1 का प्रदर्शन विशेष रूप से उल्लेखनीय रहा, जिसके कारण मॉडल अनेक मूल्यांकन श्रेणियों में उच्चतम अंक हासिल करता है।

GoT-R1 के जारी होने से बहुमाध्यमिक छवि उत्पादन प्रौद्योगिकी में नई ऊर्जा प्राप्त हुई है, जो AI के जटिल कार्यों के साथ निपटने की असीम संभावनाओं को दर्शाता है। तकनीक के विकास के साथ, भविष्य में छवि उत्पादन अधिक बुद्धिमान और सटीक होगा।

पेपर: https://arxiv.org/pdf/2503.10639