हाल ही में, गूगल अनुसंधान टीम ने नया दृश्य भाषा मॉडल PaLI-3 लॉन्च किया है, जो आकार में बड़े मॉडलों की तुलना में कम पैरामीटर के साथ बेहतर प्रदर्शन करता है। अनुसंधान ने तुलना पूर्व-प्रशिक्षित चित्र एन्कोडर का उपयोग किया, जिससे PaLI-3 विभिन्न स्थान निर्धारण और पाठ समझ कार्यों में उत्कृष्ट प्रदर्शन कर रहा है। PaLI-3 ने कई दृश्य प्रश्नोत्तर डेटा सेट पर सर्वश्रेष्ठ परिणाम प्राप्त किए हैं, जो इसकी मजबूत मल्टी-मोडल समझ क्षमता को दर्शाता है। अनुसंधान ने वर्गीकरण पूर्व-प्रशिक्षण और तुलना पूर्व-प्रशिक्षण की तुलना की और पाया कि बाद वाला अधिक कुशल दृश्य भाषा मॉडल ला सकता है।