एक नए स्वतंत्र मूल्यांकन से पता चलता है कि मेटा के नवीनतम लॉन्च किए गए Llama4 मॉडल - Maverick और Scout ने मानक परीक्षणों में अच्छा प्रदर्शन किया है, लेकिन जटिल लंबे संदर्भ कार्यों में खराब प्रदर्शन किया है। आर्टिफिशियल इंटेलिजेंस विश्लेषण के "इंटेलिजेंस इंडेक्स" के अनुसार, Maverick ने 49 अंक प्राप्त किए, जो Claude3.7Sonnet (स्कोर सूचीबद्ध नहीं) से आगे है, लेकिन Deepseek V30324 (53 अंक) से पीछे है; Scout ने 36 अंक प्राप्त किए, जो GPT-4o-mini के बराबर है, और Claude3.5Sonnet और Mistral Small3.1 से बेहतर है। दोनों मॉडलों ने रीजनिंग, कोडिंग और गणितीय कार्यों में स्थिर प्रदर्शन किया, और कोई स्पष्ट कमजोरी नहीं दिखाई।

QQ20250408-092416.png

Maverick की आर्किटेक्चर दक्षता उल्लेखनीय है, इसके सक्रिय पैरामीटर Deepseek V3 के 170 बिलियन (370 बिलियन की तुलना में) हैं, कुल पैरामीटर 60% (4020 बिलियन बनाम 6710 बिलियन) हैं, और यह केवल टेक्स्ट तक ही सीमित नहीं है, बल्कि छवियों को भी संभाल सकता है। कीमत के मामले में, Maverick की प्रति मिलियन इनपुट/आउटपुट टोकन की औसत कीमत 0.24 अमेरिकी डॉलर/0.77 अमेरिकी डॉलर है, Scout की 0.15 अमेरिकी डॉलर/0.4 अमेरिकी डॉलर है, जो Deepseek V3 से कम है, और यहां तक कि GPT-4o से 10 गुना सस्ता है, जो इसे सबसे किफायती AI मॉडल में से एक बनाता है।

हालांकि, Llama4 के लॉन्च ने विवाद को जन्म दिया है। LMArena बेंचमार्क परीक्षण से पता चलता है कि Maverick मेटा द्वारा अनुशंसित "प्रायोगिक चैट संस्करण" के तहत दूसरे स्थान पर है, लेकिन "शैली नियंत्रण" को सक्षम करने के बाद यह पांचवें स्थान पर आ गया, जो शुद्ध सामग्री गुणवत्ता के बजाय प्रारूप अनुकूलन पर इसकी निर्भरता को उजागर करता है। परीक्षकों ने मेटा के बेंचमार्क की विश्वसनीयता पर सवाल उठाया, यह दर्शाते हुए कि यह अन्य प्लेटफार्मों पर प्रदर्शन में स्पष्ट अंतर दिखाता है। मेटा ने मानव मूल्यांकन अनुभव के अनुकूलन को स्वीकार किया, लेकिन प्रशिक्षण डेटा में धोखाधड़ी से इनकार किया।

QQ20250408-092427.png

लंबे संदर्भ कार्य Llama4 की स्पष्ट कमजोरी हैं। Fiction.live परीक्षण से पता चलता है कि Maverick की 128,000 टोकन पर सटीकता केवल 28.1% है, Scout की और भी कम 15.6% है, जो Gemini2.5Pro के 90.6% से बहुत कम है। हालांकि मेटा ने दावा किया है कि Maverick 1 मिलियन टोकन और Scout 10 मिलियन टोकन संदर्भ विंडो का समर्थन करता है, लेकिन वास्तविक प्रदर्शन बहुत कम है। शोध से पता चलता है कि अत्यधिक बड़े संदर्भ विंडो का लाभ सीमित है, और 128K से कम अधिक व्यावहारिक है।

मेटा के जनरेटिव AI प्रमुख अहमद अल-दाहले ने जवाब दिया कि प्रारंभिक असंगति मॉडल दोषों के बजाय कार्यान्वयन समस्याओं के कारण हुई है। उन्होंने धोखाधड़ी के आरोपों का खंडन किया और कहा कि परिनियोजन अनुकूलन चल रहा है और कुछ दिनों के भीतर स्थिर होने की उम्मीद है।