एक नए स्वतंत्र मूल्यांकन से पता चलता है कि मेटा के नवीनतम लॉन्च किए गए Llama4 मॉडल - Maverick और Scout ने मानक परीक्षणों में अच्छा प्रदर्शन किया है, लेकिन जटिल लंबे संदर्भ कार्यों में खराब प्रदर्शन किया है। आर्टिफिशियल इंटेलिजेंस विश्लेषण के "इंटेलिजेंस इंडेक्स" के अनुसार, Maverick ने 49 अंक प्राप्त किए, जो Claude3.7Sonnet (स्कोर सूचीबद्ध नहीं) से आगे है, लेकिन Deepseek V30324 (53 अंक) से पीछे है; Scout ने 36 अंक प्राप्त किए, जो GPT-4o-mini के बराबर है, और Claude3.5Sonnet और Mistral Small3.1 से बेहतर है। दोनों मॉडलों ने रीजनिंग, कोडिंग और गणितीय कार्यों में स्थिर प्रदर्शन किया, और कोई स्पष्ट कमजोरी नहीं दिखाई।

Maverick की आर्किटेक्चर दक्षता उल्लेखनीय है, इसके सक्रिय पैरामीटर Deepseek V3 के 170 बिलियन (370 बिलियन की तुलना में) हैं, कुल पैरामीटर 60% (4020 बिलियन बनाम 6710 बिलियन) हैं, और यह केवल टेक्स्ट तक ही सीमित नहीं है, बल्कि छवियों को भी संभाल सकता है। कीमत के मामले में, Maverick की प्रति मिलियन इनपुट/आउटपुट टोकन की औसत कीमत 0.24 अमेरिकी डॉलर/0.77 अमेरिकी डॉलर है, Scout की 0.15 अमेरिकी डॉलर/0.4 अमेरिकी डॉलर है, जो Deepseek V3 से कम है, और यहां तक कि GPT-4o से 10 गुना सस्ता है, जो इसे सबसे किफायती AI मॉडल में से एक बनाता है।
हालांकि, Llama4 के लॉन्च ने विवाद को जन्म दिया है। LMArena बेंचमार्क परीक्षण से पता चलता है कि Maverick मेटा द्वारा अनुशंसित "प्रायोगिक चैट संस्करण" के तहत दूसरे स्थान पर है, लेकिन "शैली नियंत्रण" को सक्षम करने के बाद यह पांचवें स्थान पर आ गया, जो शुद्ध सामग्री गुणवत्ता के बजाय प्रारूप अनुकूलन पर इसकी निर्भरता को उजागर करता है। परीक्षकों ने मेटा के बेंचमार्क की विश्वसनीयता पर सवाल उठाया, यह दर्शाते हुए कि यह अन्य प्लेटफार्मों पर प्रदर्शन में स्पष्ट अंतर दिखाता है। मेटा ने मानव मूल्यांकन अनुभव के अनुकूलन को स्वीकार किया, लेकिन प्रशिक्षण डेटा में धोखाधड़ी से इनकार किया।

लंबे संदर्भ कार्य Llama4 की स्पष्ट कमजोरी हैं। Fiction.live परीक्षण से पता चलता है कि Maverick की 128,000 टोकन पर सटीकता केवल 28.1% है, Scout की और भी कम 15.6% है, जो Gemini2.5Pro के 90.6% से बहुत कम है। हालांकि मेटा ने दावा किया है कि Maverick 1 मिलियन टोकन और Scout 10 मिलियन टोकन संदर्भ विंडो का समर्थन करता है, लेकिन वास्तविक प्रदर्शन बहुत कम है। शोध से पता चलता है कि अत्यधिक बड़े संदर्भ विंडो का लाभ सीमित है, और 128K से कम अधिक व्यावहारिक है।
मेटा के जनरेटिव AI प्रमुख अहमद अल-दाहले ने जवाब दिया कि प्रारंभिक असंगति मॉडल दोषों के बजाय कार्यान्वयन समस्याओं के कारण हुई है। उन्होंने धोखाधड़ी के आरोपों का खंडन किया और कहा कि परिनियोजन अनुकूलन चल रहा है और कुछ दिनों के भीतर स्थिर होने की उम्मीद है।





