टेक्नोलॉजी की दुनिया में ताज़ा खबरों में, OpenAI ने अभी-अभी घोषणा की है कि उन्होंने अपने नवीनतम GPT-4o मॉडल में अब तक का सबसे उन्नत इमेज जेनरेटर जोड़ा है। OpenAI के मुख्य कार्यकारी अधिकारी सैम ऑल्टमैन ने सोशल मीडिया प्लेटफ़ॉर्म X पर अपनी खुशी जाहिर करते हुए बताया कि जब उन्होंने पहली बार इस मॉडल द्वारा बनाई गई इमेज देखी तो वे हैरान रह गए। उन्होंने इसे अविश्वसनीय बताया और यूज़र्स से अपनी रचनात्मकता दिखाने की उम्मीद की।
नई सुविधाओं की मुख्य बातें:
- टेक्स्ट कंटेंट को सटीक रूप से रेंडर करने की क्षमता, उच्च-गुणवत्ता वाली इमेज प्रदान करना।
- कई तरह के इनपुट और आउटपुट तरीकों का समर्थन, जिसमें टेक्स्ट, इमेज और ऑडियो शामिल हैं।
- जटिल निर्देशों को समझना और संदर्भ के साथ मिलकर, यथार्थवादी प्रथम-व्यक्ति दृष्टिकोण वाली इमेज बनाना।
पिछले इमेज जेनरेटिंग मॉडल DALL・E के विपरीत, GPT-4o एक स्व-पुनरावर्ती मॉडल है, जो मूल रूप से ChatGPT में एम्बेडेड है। इसका मतलब है कि यह 10 से 20 अलग-अलग वस्तुओं के जटिल निर्देशों को संभाल सकता है, जबकि प्रतिस्पर्धी आमतौर पर केवल 5 से 8 वस्तुओं को संभाल सकते हैं, जो इसकी बेहतर क्षमता को दर्शाता है।
यूज़र्स को बस अपनी ज़रूरत को संक्षेप में बताना होगा, जैसे कि पहलू अनुपात, रंग या पारदर्शी पृष्ठभूमि निर्दिष्ट करना, और मॉडल जल्दी से इमेज बना सकता है। हालाँकि, अधिक जटिल विवरणों को रेंडर करने में थोड़ा समय लग सकता है, लेकिन अंतिम परिणाम इसके लायक होता है।
एक लॉन्च इवेंट में, प्रस्तुतकर्ता ने कई विशिष्ट उदाहरण दिखाए। उदाहरण के लिए, उन्होंने एक समूह फ़ोटो को एनीमे शैली की इमेज में बदल दिया, मॉडल ने न केवल व्यक्तियों की विशेषताओं को सफलतापूर्वक संरक्षित किया, बल्कि एनीमे विज़ुअल इफ़ेक्ट्स को भी पूरी तरह से मिला दिया। इसके अलावा, प्रस्तुतकर्ता ने सापेक्षता पर एक हास्य कॉमिक बनाने का अनुरोध किया, और परिणामस्वरूप कॉमिक न केवल संरचना में पूर्ण थी, बल्कि जीवंत और मनोरंजक भी थी।
OpenAI इस फ़ंक्शन की सुरक्षा को लेकर भी बहुत गंभीर है, सभी उत्पन्न इमेज में C2PA मेटाडेटा पहचान होती है, जो सामग्री के स्रोत की पता लगाने योग्यता सुनिश्चित करती है और अनुचित अनुरोधों के उत्पादन को प्रभावी ढंग से रोकती है।
निश्चित रूप से, OpenAI का इमेज जेनरेटिंग टूल बिना कमियों के नहीं है, जैसे कि क्रॉपिंग, संदर्भ समझ और गैर-लैटिन टेक्स्ट रेंडरिंग आदि में अभी भी कमी है। हालाँकि, OpenAI का कहना है कि वे भविष्य में इन समस्याओं को लगातार बेहतर बनाते रहेंगे।
इसी समय, Google ने भी उसी समय अपने शक्तिशाली AI मॉडल Gemini2.5Pro Experimental को जारी किया, जो तर्क और प्रोग्रामिंग क्षमताओं में उल्लेखनीय सुधार दिखाता है। इन घटनाक्रमों से पता चलता है कि AI क्षेत्र में प्रतिस्पर्धा और तेज हो रही है, और सभी प्रमुख तकनीकी कंपनियाँ लगातार अधिक उन्नत तकनीकें पेश कर रही हैं, ताकि इस "AI युद्ध" में अग्रणी स्थान हासिल किया जा सके।