हाल ही में, गूगल अनुसंधान टीम ने नया दृश्य भाषा मॉडल PaLI-3 लॉन्च किया है, जो आकार में बड़े मॉडलों की तुलना में कम पैरामीटर के साथ बेहतर प्रदर्शन करता है। अनुसंधान ने तुलना पूर्व-प्रशिक्षित चित्र एन्कोडर का उपयोग किया, जिससे PaLI-3 विभिन्न स्थान निर्धारण और पाठ समझ कार्यों में उत्कृष्ट प्रदर्शन कर रहा है। PaLI-3 ने कई दृश्य प्रश्नोत्तर डेटा सेट पर सर्वश्रेष्ठ परिणाम प्राप्त किए हैं, जो इसकी मजबूत मल्टी-मोडल समझ क्षमता को दर्शाता है। अनुसंधान ने वर्गीकरण पूर्व-प्रशिक्षण और तुलना पूर्व-प्रशिक्षण की तुलना की और पाया कि बाद वाला अधिक कुशल दृश्य भाषा मॉडल ला सकता है।
गूगल ने नई विजुअल लैंग्वेज मॉडल PaLI-3 लॉन्च की, प्रदर्शन मजबूत और पैरामीटर कम

学术头条
यह लेख AIbase दैनिक से है
【AI दैनिक】 कॉलम में आपका स्वागत है! यहाँ आर्टिफ़िशियल इंटेलिजेंस की दुनिया का पता लगाने के लिए आपकी दैनिक मार्गदर्शिका है। हर दिन हम आपके लिए AI क्षेत्र की हॉट कंटेंट पेश करते हैं, डेवलपर्स पर ध्यान केंद्रित करते हैं, तकनीकी रुझानों को समझने में आपकी मदद करते हैं और अभिनव AI उत्पाद अनुप्रयोगों को समझते हैं।