परिवार, आज तुम्हें एक बहुत ही अद्भुत और नया परिणाम के बारे में सुनाना चाहूंगा - Flow-GRPO! यह चीज़ बहुत ही शानदार है, इसने इमेज जेनरेशन मॉडल को एक ऐसा "अत्यधिक विकास" दिया है, जिससे वे "ब्रॉन्ज" से शुरू करके "राजा" तक पहुंच गई। यह कैसे किया गया है? तुरंत बैठो, और मुझे सुनो!
इमेज जेनरेशन मॉडल की "विकास की समस्या"
अब के समय के इमेज जेनरेशन मॉडल, जैसे फ्लो मैचिंग (Flow matching) आधारित उन, का सिद्धांत बहुत मजबूत है, और उनके द्वारा उत्पन्न होने वाली उच्च गुणवत्ता वाली इमेजें बहुत दिलचस्प होती हैं। लेकिन वे अपनी अपनी "छोटी चिंताएं" भी हैं। जब वे जटिल स्थितियों का सामना करते हैं, जैसे कि कई वस्तुओं की व्यवस्था करने, विभिन्न गुणों और संबंधों का प्रबंधन, या इमेज में सटीक टेक्स्ट रेंडर करने की आवश्यकता हो, तो वे थोड़ा अस्पष्ट हो जाते हैं।
पेपर का लिंक: https://www.arxiv.org/pdf/2505.05470
पर्यटन का लिंक: https://github.com/yifan123/flow_grpo
और ऑनलाइन रियल-टाइम सीखने (Online RL) ने बड़े परिवर्तन लाए हैं, जो लांगेज मॉडल की निष्कर्षण क्षमता में बढ़ावा देता है। लेकिन पहले लोगों ने रियल-टाइम RL को जरूर उपयोग किया था, लेकिन बहुत कम लोगों ने इसका प्रयोग किया था जो फ्लो मैचिंग जेनरेशन मॉडल को नए तरीकों से सुधार सके। यह बराबर है जैसे कि एक बहुत शक्तिशाली कुंजी है, लेकिन किसी ने उसे खोलने की कोशिश नहीं की। अब, Flow-GRPO आ गया है, यह "दरवाजा खोलने" के लिए आ गया है!
RL के साथ फ्लो मॉडल की प्रशिक्षण बहुत कठिन है। पहले, फ्लो मॉडल की प्रोडक्शन प्रक्रिया एक निर्धारित पथ है, जो नियतात्मक सामान्य अंतरिक्ष समीकरण (ODE) के आधार पर काम करती है, और इसलिए इसमें कोई अनियंत्रित प्रमाप नहीं होता है। लेकिन RL बच्चों की तरह चाहता है कि यह नया रास्ता खोजे, और उसके बाद उसे बैकफीड के अनुसार सीखने का अवसर मिले। यह दोनों की "प्रकृति" बिल्कुल अलग है, एक लगातार नियंत्रित है, और दूसरा नए पथों का प्रयास करता है, इसलिए यह कैसे मिलेंगे?
दूसरा, ऑनलाइन RL के प्रशिक्षण के लिए कुशल प्रमाप एक्सपीरिमेंट करने की जरूरत होती है, लेकिन फ्लो मॉडल प्रत्येक नमूना प्राप्त करने के लिए बहुत सारी इटरेशन की आवश्यकता होती है, जैसे कि वह कछुआ है जो धीमी गति से चलता है, इसलिए प्रमाप एक्सपीरिमेंट की दर बहुत कम होती है। मॉडल जटिल और उच्च कोटि की होने पर, यह समस्या और अधिक गंभीर हो जाती है, जैसे कि एक स्नोबॉल जो बर्फ के बर्फ बनने के साथ बढ़ रहा है। इसलिए, यह सुनिश्चित करना बहुत महत्वपूर्ण है कि RL इमेज या वीडियो जेनरेशन जैसी कार्यों में काम कर सके।
Flow-GRPO आ गया है!
इन समस्याओं को हल करने के लिए, Flow-GRPO ने खुला है! यह बहुत ही अद्भुत "मैगिक टूलबॉक्स" है, जिसमें दो बहुत ही अद्भुत "मैगिक" स्ट्रैटेजीज हैं।
पहली स्ट्रैटेजी है "ODE to SDE Conversion"। यह बराबर है जैसे कि एक ट्रेन जो फिक्स्ड ट्रैक पर चलती है, बदल कर एक कार बन गई है जो विभिन्न रास्तों पर स्वचालित रूप से घूम सकती है। Flow-GRPO ने नियतात्मक सामान्य अंतरिक्ष समीकरण को यादृच्छिक अंतरिक्ष समीकरण (SDE) में बदल दिया है, और यह समय के प्रत्येक कदम पर मॉडल के मार्जिनल डिस्ट्रिब्यूशन के साथ विशेषज्ञता रखता है। इससे मॉडल में यादृच्छिकता का उदय हुआ है, जो RL की जरूरत को पूरा करता है। कल्पना करो, पहले मॉडल इमेज उत्पन्न करता था जैसे एक सीधी राह पर चल रहा है, लेकिन अब इस स्ट्रैटेजी के कारण, यह विभिन्न रास्तों पर घूम सकता है, और बेहतर उत्पन्न तरीकों को खोज सकता है, नहीं है यह अद्भुत?
दूसरी स्ट्रैटेजी है "Noise Reduction Strategy"। प्रशिक्षण के दौरान, Flow-GRPO बुद्धिमान "टाइम मैनेजमेंट मास्टर" है, जो निर्मलन की कदमों को कम कर देता है, जिससे प्रशिक्षण डेटा को तेजी से एकत्रित किया जा सकता है। लेकिन प्रशिक्षण के दौरान, यह पहले की पूरी निर्मलन की कदमों को पुनः बहाल कर लेता है, जिससे उच्च गुणवत्ता वाले नमूने उत्पन्न होते हैं। यह बराबर है जैसे दौड़ में, प्रशिक्षण के दौरान तेज चलने के लिए कुछ कदमों को कम किया जाता है, लेकिन प्रतिस्पर्धा के समय फिर से नियमित रूप से चलने की अनुशासन किया जाता है, जो गति को बनाए रखता है और गुणवत्ता को सुनिश्चित करता है।
Flow-GRPO का वास्तविक-दुनिया में प्रदर्शन कैसा है?
Flow-GRPO कितना अच्छा है? अध्ययनकर्ता ने इसका प्रयोग विभिन्न टेक्स्ट-टू-इमेज (T2I) कार्यों में किया, और उनके परिणाम बहुत ही अद्भुत थे!
अस्त्रो बदलाव! Flow-GRPO से छवि उत्पादन मॉडल एकदम वरिष्ठ बन जाते हैं

AIbase基地
यह लेख AIbase दैनिक से है
【AI दैनिक】 कॉलम में आपका स्वागत है! यहाँ आर्टिफ़िशियल इंटेलिजेंस की दुनिया का पता लगाने के लिए आपकी दैनिक मार्गदर्शिका है। हर दिन हम आपके लिए AI क्षेत्र की हॉट कंटेंट पेश करते हैं, डेवलपर्स पर ध्यान केंद्रित करते हैं, तकनीकी रुझानों को समझने में आपकी मदद करते हैं और अभिनव AI उत्पाद अनुप्रयोगों को समझते हैं।