आज सुबह माइक्रोसॉफ्ट ने अपनी आधिकारिक वेबसाइट पर फिला-4 परिवार के नए संस्करण — फिला-4-मिनी-फ्लैश-रिजनिंग को ओपन सोर्स कर दिया। इस नए संस्करण में फिला-4 श्रृंखला के छोटे आकार और मजबूत प्रदर्शन के गुण हैं, और इसे गणना क्षमता, मेमोरी और देरी की सीमाओं वाले स्थितियों के लिए डिज़ाइन किया गया है, जो एक एम्पी ग्राफिक्स प्रोसेसिंग यूनिट पर चल सकता है, जो लैपटॉप और टैबलेट जैसे किनारे के उपकरणों के लिए बहुत उपयुक्त है।

image.png

फिला-4-मिनी-फ्लैश-रिजनिंग के उत्पादन ने तर्क की दक्षता में उल्लेखनीय सुधार के लिए चिह्नित किया है, जिसमें तर्क की दक्षता पिछले संस्करण की तुलना में 10 गुना बढ़ गई है, और औसत देरी 2 से 3 गुना कम हो गई है। इस बड़े पैमाने पर प्रदर्शन सुधार के कारण, इसका उच्च गणितीय तर्क के क्षेत्र में विशेष रूप से उत्कृष्ट प्रदर्शन होता है, जो शिक्षा और शोध के क्षेत्र में बहुत उपयुक्त है।

इस संस्करण का मुख्य घटक माइक्रोसॉफ्ट के स्वयं के SambaY आर्किटेक्चर है। SambaY एक नवाचीन डिकोडर हाइब्रिड आर्किटेक्चर है, जिसे माइक्रोसॉफ्ट और स्टैनफोर्ड विश्वविद्यालय द्वारा संयुक्त रूप से विकसित किया गया है। गेटिंग स्टोरेज यूनिट के आविष्कार के माध्यम से, SambaY क्रॉस-लेयर में दक्षता से स्मृति साझा कर सकता है, जिससे डिकोडिंग दक्षता में सुधार होता है, लाइनियर पूर्व-भंडारण समय जटिलता बनाए रखता है, लंबे संदर्भ प्रदर्शन में सुधार करता है, और कोई विशिष्ट स्थानीयकरण कोडिंग की आवश्यकता नहीं होती है।

लंबे पाठ उत्पादन कार्य में, SambaY ने उल्लेखनीय दक्षता में सुधार दिखाया। 2K लंबाई के प्रेरणा और 32K लंबाई के उत्पादन कार्य के साथ, डिकोडिंग थ्रूपुट पारंपरिक फिला-4-मिनी-रिजनिंग मॉडल की तुलना में 10 गुना बढ़ गया। इसके अलावा, गणितीय तर्क क्षमता के परीक्षण में, SambaY के प्रदर्शन में भी उल्लेखनीय वृद्धि हुई, विशेष रूप से जटिल गणितीय समस्याओं में, जहां यह स्पष्ट और तार्किक रूप से जुड़े हुए हल के चरण उत्पन्न कर सकता है।

image.png

माइक्रोसॉफ्ट ने लंबे संदर्भ खोज में SambaY के प्रदर्शन के बारे में Phonebook और RULER जैसे मानक परीक्षणों के माध्यम से मूल्यांकन किया। 32K लंबाई के संदर्भ में, SambaY ने Phonebook कार्य में 78.13% की सटीकता हासिल की, जो अन्य मॉडल की तुलना में बहुत बेहतर है। इससे पता चलता है कि SambaY लंबे संदर्भ के समझ और उत्पादन क्षमता में अपने लाभ के बारे में बताता है।

सामान्यीकरण के लिए, माइक्रोसॉफ्ट ने बड़े पैमाने पर पूर्व-प्रशिक्षण परीक्षण किए, जिसमें 3.8B पैरामीटर वाले फिला-4-मिनी-फ्लैश मॉडल का उपयोग किया गया और 5T tokens के डेटासेट पर प्रशिक्षण किया गया। यहां प्रशिक्षण के दौरान कुछ चुनौतियां आईं, लेकिन टैग स्मूथिंग और ध्यान ड्रॉपआउट जैसी तकनीकों के उपयोग के माध्यम से, मॉडल अंततः संगत हो गया और ज्ञान घनत्व वाले कार्यों में उल्लेखनीय प्रदर्शन में सुधार हुआ।

ओपन सोर्स एड्रेस: https://huggingface.co/microsoft/Phi-4-mini-flash-reasoning

न्यूडिया एपीआई: https://build.nvidia.com/microsoft

मुख्य बातें:

🌟 माइक्रोसॉफ्ट ने फिला-4-मिनी-फ्लैश-रिजनिंग लॉन्च किया, जिसमें तर्क की दक्षता 10 गुना बढ़ गई है और लैपटॉप पर चल सकता है।  

🔍 नवाचीन SambaY आर्किटेक्चर दक्षता से स्मृति साझा करके डिकोडिंग प्रदर्शन में सुधार करता है, जो लंबे पाठ उत्पादन और गणितीय तर्क के लिए उपयुक्त है।  

📈 मानक परीक्षण में अच्छा प्रदर्शन किया, Phonebook कार्य में 78.13% सटीकता हासिल की, जो लंबे संदर्भ के समझ और उत्पादन क्षमता के बारे में बताता है।