PixelLLM
पिक्सेल संरेखित भाषा मॉडल
सामान्य उत्पादछविछवि स्थानीयकरणभाषा मॉडल
PixelLLM एक दृश्य-भाषा मॉडल है जो छवि स्थानीयकरण कार्यों के लिए उपयोग किया जाता है। यह मॉडल इनपुट स्थिति के आधार पर वर्णनात्मक पाठ उत्पन्न कर सकता है, और इनपुट पाठ के आधार पर सघन स्थानीयकरण के लिए पिक्सेल निर्देशांक उत्पन्न कर सकता है। Localized Narrative डेटासेट पर पूर्व-प्रशिक्षण के माध्यम से, मॉडल ने शब्दों और छवि पिक्सेल के बीच संरेखण संबंध सीखा है। PixelLLM का उपयोग कई छवि स्थानीयकरण कार्यों में किया जा सकता है, जिसमें निर्देशित स्थानीयकरण, स्थिति-सशर्त विवरण और सघन वस्तु विवरण शामिल हैं, और यह RefCOCO और Visual Genome जैसे डेटासेट पर अत्याधुनिक प्रदर्शन प्राप्त करता है।
PixelLLM नवीनतम ट्रैफ़िक स्थिति
मासिक कुल विज़िट
646
बाउंस दर
68.18%
प्रति विज़िट औसत पृष्ठ
1.4
औसत विज़िट अवधि
00:00:26