1. हाल ही में, MIT CSAIL, गॉटिंगन विश्वविद्यालय और IBM अनुसंधान संस्थानों की एक अनुसंधान टीम ने एक नया ध्वनि प्रश्न-उत्तर मॉडल जिसका नाम Omni-R1 है, प्रस्तुत किया। यह मॉडल Qwen2.5-Omni के आधार पर है और इसे GRPO (Group Relative Policy Optimization) नामक एक बूढ़ा शिक्षण तकनीक द्वारा अपग्रेड किया गया है, जो ध्वनि प्रश्न-उत्तर कार्य में अद्वितीय प्रदर्शन दिखाता है।
  2. image.png
  3. Omni-R1 बहुत प्रसिद्ध MMAU बेंचमार्क परीक्षण में नई शीर्ष प्रदर्शन बनाए रखता है, जो ध्वनि, बोली और संगीत कई ध्वनि श्रेणियों को शामिल करता है। अनुसंधान टीम ने सूचना दी कि हालांकि मॉडल की प्रशिक्षण ध्वनि डेटा से की गई है, फिर भी इसके प्रदर्शन में सुधार का मुख्य कारण टेक्स्ट तर्कन क्षमता का बढ़ना है। यह खोज लोगों को चकित करती है क्योंकि केवल टेक्स्ट डेटा का उपयोग करने पर भी मॉडल का प्रदर्शन बढ़ गया।
  4. इसलिए, अनुसंधानकर्ताओं ने ChatGPT का उपयोग करके बड़े पैमाने पर ध्वनि प्रश्न-उत्तर डेटा का उत्पादन किया और दो नए डेटासेट AVQA-GPT और VGGS-GPT को बनाया। ये दोनों डेटासेट क्रमशः 40,000 और 182,000 ध्वनि डेटा वाले हैं जो Omni-R1 की सटीकता को बढ़ाते हैं। प्रशिक्षण के दौरान, Omni-R1 पिछले बेसलाइन मॉडलों, जिसमें SARI भी शामिल है, की तुलना में बेहतर प्रदर्शन प्रदर्शित किया और औसतन 71.3% के स्कोर प्राप्त किए। अध्ययन द्वारा यह साबित हुआ कि ध्वनि के उपयोग से थोड़ा अधिक प्रदर्शन हुआ, लेकिन टेक्स्ट का योगदान भी नजदीक बात करने योग्य है।
  5. GRPO विधि का एक महत्वपूर्ण लाभ इस है कि यह यादृच्छिक यादृच्छिक प्रभाव कम करता है और 48GB GPU पर प्रभावी ढंग से चल सकता है। इस विधि के माध्यम से, उत्तर की सहीता पर आधारित पुरस्कार दिए जाते हैं, जिसमें कठिनाई के मूल्यांकन कार्य का उपयोग नहीं किया जाता है। अनुसंधानकर्ताओं ने Qwen-2Audio के ध्वनि विवरण को बढ़ाकर प्रशिक्षण डेटा को बढ़ाया, जो मल्टीमोडल कार्यों पर मॉडल की प्रतिस्पर्धा करने में मदद करता है।
  6. Omni-R1 ध्वनि प्रश्न-उत्तर क्षेत्र में नया शिखर स्थापित करता है और टेक्स्ट तर्क का ध्वनि मॉडल के प्रदर्शन में महत्वपूर्ण भूमिका निभाता है। भविष्य में, अनुसंधान टीम अपने संबंधित सामग्री को सार्वजनिक करने का वादा करती है ताकि अधिक संशोधक और विकसिता वाले इस नतीजे का लाभ उठा सकें।
  7. पेपर: https://arxiv.org/abs/2505.09439
  8. अंक लगाएं: 🔍 Omni-R1, Qwen2.5-Omni मॉडल पर आधारित है और GRPO शिक्षण विधि द्वारा अपग्रेड किया गया है। 📈 यह मॉडल MMAU बेंचमार्क पर नया शिखर प्रदर्शन प्रदर्शित करता है, जिसमें टेक्स्ट तर्क क्षमता का सुधार मुख्य कारण है। 🛠️ अनुसंधानकर्ताओं ने ChatGPT का उपयोग करके नए डेटासेट बनाए हैं जो मॉडल के प्रशिक्षण और सटीकता में बहुत अधिक सुधार लाए हैं।