एआई तकनीक के लगातार विकास के साथ, बड़े मॉडल को "समानांतर विचार" क्षमता प्राप्त करने के बारे में अध्ययनकर्ता एक गर्म विषय पर ध्यान केंद्रित कर रहे हैं। हाल ही में, टेंग्गिंग एआई लैब ने कई विश्वविद्यालयों के अनुसंधान टीमों के साथ मिलकर एक नया प्रबलित शिक्षण (RL) ढांचा, Parallel-R1 लॉन्च किया है, जिसका उद्देश्य बड़े मॉडल को समानांतर तर्क मार्गों के अन्वेषण के साथ एक साथ खोजना सिखाना है। यह नवाचार ढांचा जटिल गणितीय तर्क कार्यों के उत्तर के रूप में नई दिशा प्रदान करता है।

पारंपरिक तरीके आमतौर पर संवेदनशील सुधार (SFT) पर निर्भर करते हैं, जिसके लिए डेटा की गुणवत्ता की आवश्यकता होती है, और मॉडल आमतौर पर अपने डेटा के अनुकरण करते हैं, स्वयं के अधिकार और सामान्यीकरण क्षमता की कमी होती है। इन समस्याओं के समाधान के लिए, Parallel-R1 ढांचा उत्पन्न हुआ। अनुसंधान टीम का मुख्य खोज यह रहा कि सरल प्रेरणा का उपयोग करके, मॉडल को सरल गणितीय समस्याओं के साथ उच्च गुणवत्ता वाले समानांतर विचार डेटा उत्पन्न करने में सक्षम किया जा सकता है। फिर, एक "क्रमबद्ध कोर्स" के प्रशिक्षण मोड के माध्यम से, मॉडल पहले सरल कार्यों से समानांतर विचार के "व्याकरण प्रारूप" सीखता है, फिर जटिल गणितीय समस्याओं में प्रबलित शिक्षण में बढ़ता है।

इसके अलावा, टीम ने पुरस्कार डिजाइन के मुद्दे के लिए एक वैकल्पिक पुरस्कार रणनीति प्रस्तावित की, जो "समाधान सटीकता" और "विचार विविधता" के बीच बिंदु बनाने में खुशी देती है। प्रशिक्षण के दौरान, मॉडल अधिकांश समय "सटीकता पुरस्कार" के साथ रहता है, और कुछ समय के लिए समानांतर विचार के उपयोग के लिए अतिरिक्त पुरस्कार दिया जाता है। यह रणनीति मॉडल के समानांतर विचार के उपयोग की दर को निश्चित रूप से बढ़ाती है, और अंत में कई गणितीय मानक परीक्षणों में निर्णायक सुधार होता है।
प्रयोग के परिणाम दर्शाते हैं कि Parallel-R1 ढांचा मॉडल के कई गणितीय मानकों पर 8.4% तक औसत सटीकता में सुधार करता है, AIME25 परीक्षण में 42.9% के प्रदर्शन में वृद्धि हुई। अध्ययनकर्ताओं ने खोजा कि प्रशिक्षण के बाद, मॉडल के विचार रणनीति पहले "व्यापक खोज" के रूप में विकसित होती है, फिर बाद में "सटीक जांच" में बदल जाती है, जो समानांतर विचार के लाभ को पूरी तरह से प्रदर्शित करता है।
Parallel-R1 की सफलता बड़े मॉडल के तर्क क्षमता के लिए नई दिशा प्रदान करती है, और भविष्य के AI अनुसंधान के लिए नई दिशा प्रदान करती है, जटिल कार्यों के समाधान में समानांतर विचार के संभावनाओं को दर्शाती है।




