OpenAI ने हाल ही में चुपके से एक व्यावहारिक गाइड टू बिल्डिंग एजेंट्स जारी किया है, जो वास्तव में एक "AI कार्यकर्ता" प्रशिक्षण मैनुअल है! आज, मैं आपको सबसे सरल और सबसे दिलचस्प तरीके से इस आधिकारिक गाइड को समझाने जा रहा हूँ, ताकि आप आसानी से अपने स्वयं के AI एजेंट को बनाना सीख सकें! तैयार हैं? चलो शुरू करते हैं!

image.png

रुको, एजेंट आखिर क्या है? यह सामान्य सॉफ़्टवेयर से कैसे अलग है?

आइए पहले यह स्पष्ट करते हैं कि एजेंट आपके फ़ोन पर मौजूद वे ऐप नहीं हैं जो कमांड का पालन करते हैं, न ही वे केवल साधारण चैटबॉट हैं। OpenAI ने इसकी परिभाषा इस प्रकार दी है:

एजेंट एक स्वतंत्र प्रणाली है जो आपके लिए विशिष्ट कार्यों को पूरा करती है।

मुख्य बिंदु: स्वतंत्र!

अपने द्वारा उपयोग किए जाने वाले सॉफ़्टवेयर के बारे में सोचें, जैसे टिकट बुकिंग ऐप। आपको इसे बताना होगा कि आप कहाँ जाना चाहते हैं, कब जाना चाहते हैं, और किस श्रेणी में यात्रा करना चाहते हैं, तभी यह आपको परिणाम देगा। लेकिन एजेंट के साथ? आपको बस इतना कहना होगा: "मुझे अगले हफ़्ते बीजिंग के लिए सबसे सस्ती टिकट बुक कर दो, खिड़की वाली सीट, और साथ ही कोई अच्छा होटल भी ढूंढ दो।" फिर, यह स्वयं उड़ानों की जाँच करेगा, कीमतों की तुलना करेगा, समीक्षाओं को देखेगा, और संभवतः कुछ विकल्पों की पुष्टि करने के बाद, काम पूरा कर देगा!

image.png

संक्षेप में, एजेंट एक सुपर कर्मचारी है जिसे "दिमाग" (LLM, बड़ा भाषा मॉडल), "टूलबॉक्स" (टूल) और "निर्देश" (निर्देश) दिया गया है। यह कर सकता है:

दिमाग लगाकर निर्णय लेना (LLM का उपयोग करता है): एक स्मार्ट व्यक्ति की तरह स्थिति का विश्लेषण करता है, तय करता है कि अगला कदम क्या उठाना है, और यह भी पता लगा सकता है कि उसने गलती की है और उसे सुधारने का प्रयास करता है। अगर वह वास्तव में इसे हल नहीं कर सकता है, तो वह रुक जाएगा और आपसे (उपयोगकर्ता) मदद मांगेगा।

टूल का उपयोग करके काम करना (टूल तक पहुँच): बाहरी दुनिया से जुड़ सकता है, जैसे ऑनलाइन जानकारी की खोज करना, डेटाबेस को कॉल करना, ईमेल भेजना, या अन्य सॉफ़्टवेयर API का उपयोग करना। और यह बहुत स्मार्ट है, यह जानता है कि कब किस टूल का उपयोग करना है।

इसलिए, वे AI एप्लिकेशन जो केवल साधारण चैट करते हैं, टेक्स्ट वर्गीकरण करते हैं, या निश्चित प्रक्रियाओं का पालन करते हैं, सख्ती से कहें तो एजेंट नहीं माने जाते हैं! एजेंट वास्तव में आपके लिए "काम" करने वाले शक्तिशाली उपकरण हैं।

कब एजेंट का उपयोग करना चाहिए? "भारी तोप से मच्छर नहीं मारना चाहिए"!

हालांकि एजेंट बहुत शक्तिशाली हैं, लेकिन वे सर्वशक्तिमान नहीं हैं। यदि आप जिस समस्या को हल करना चाहते हैं, उसे पारंपरिक स्वचालित टूल या कुछ नियमों को लिखकर हल किया जा सकता है, तो एजेंट बनाने की आवश्यकता नहीं है। OpenAI का सुझाव है कि जब आप निम्नलिखित "मुश्किल" समस्याओं का सामना करते हैं, तो एजेंट वास्तव में अपना मूल्य दिखाते हैं, पुराने सिस्टम को पीछे छोड़ते हैं:

बहुत जटिल निर्णय लेना, "स्थिति" को देखना (जटिल निर्णय लेना): उदाहरण के लिए, ग्राहक सेवा के दृश्य में यह निर्णय लेना कि क्या धनवापसी अनुरोध उचित है, उपयोगकर्ता के इतिहास, उत्पाद की स्थिति और यहां तक कि उपयोगकर्ता के स्वर जैसी कई "नरम" जानकारी को ध्यान में रखना होगा। पारंपरिक नियम इंजन इस तरह के "ग्रे क्षेत्र" में असफल हो जाते हैं, लेकिन एजेंट एक अनुभवी प्रबंधक की तरह फायदे और नुकसान का आकलन कर सकते हैं।

अनगिनत नियम, रखरखाव में परेशानी (रखरखाव में कठिनाई वाले नियम): कुछ पुराने सिस्टम में, नियमों पर नियमों का ढेर होता है, एक जगह में बदलाव करने से कई बग आ सकते हैं, और रखरखाव की लागत बहुत अधिक होती है। उदाहरण के लिए, आपूर्तिकर्ता सुरक्षा की समीक्षा करते समय, नियमों का संग्रह बहुत लंबा और जटिल होता है। एजेंट अधिक लचीले तरीके से इरादे को समझ और लागू कर सकते हैं, "नियम नरक" से छुटकारा पा सकते हैं।

गैर-संरचित डेटा के साथ काम करना सामान्य बात है (गैर-संरचित डेटा पर भारी निर्भरता): क्या आपको अनुबंध दस्तावेज़ों से महत्वपूर्ण जानकारी निकालने की ज़रूरत है? क्या आपको उपयोगकर्ता के प्राकृतिक भाषा निर्देशों को समझने की ज़रूरत है? क्या आपको बीमा निपटान की मौखिक रिकॉर्डिंग को संसाधित करने की ज़रूरत है? ये ऐसे कार्य हैं जिनमें बड़ी मात्रा में टेक्स्ट और वॉयस डेटा शामिल है, और ये एजेंट के लिए सबसे उपयुक्त हैं।

संक्षेप में, जब आपको लगता है कि मौजूदा उपकरण "पर्याप्त स्मार्ट नहीं हैं", "पर्याप्त लचीले नहीं हैं", या "बहुत कठोर हैं", तो एजेंट को बुलाने का समय आ गया है!

एजेंट के "तीन भाग": दिमाग, उपकरण और निर्देश पुस्तिका

ठीक है, अब थोड़ा व्यावहारिक हो जाते हैं। एक एजेंट को इकट्ठा करने के लिए, आपको इन तीन मुख्य "भागों" को तैयार करने की आवश्यकता है:

मॉडल (मॉडल) - एजेंट का "दिमाग":

यह एजेंट का बुद्धिमान कोर है, आमतौर पर एक शक्तिशाली LLM (जैसे OpenAI का GPT श्रृंखला)।

कौन सा मॉडल चुनें? यह आपके कार्य की कठिनाई, गति और लागत की आवश्यकताओं पर निर्भर करता है। OpenAI का सुझाव है:

सबसे अच्छा मॉडल चुनें: सबसे पहले, सबसे शक्तिशाली मॉडल (जैसे GPT-4) का उपयोग करके एक प्रोटोटाइप बनाएँ और प्रदर्शन मानक स्थापित करें।

धीरे-धीरे कम शक्तिशाली मॉडल का प्रयोग करें: फिर, छोटे, तेज और सस्ते मॉडल (जैसे GPT-3.5Turbo या भविष्य में संभवतः छोटे मॉडल) का उपयोग करके देखें कि क्या परिणाम अभी भी स्वीकार्य हैं।

मिश्रित मिलान: आप एक जटिल प्रक्रिया में छोटे मॉडल का उपयोग सरल चरणों के लिए और बड़े मॉडल का उपयोग महत्वपूर्ण निर्णयों के लिए कर सकते हैं, ताकि "उत्कृष्ट सामग्री का सही उपयोग" हो सके। शुरुआत में खुद को सीमित न करें!

उपकरण (टूल) - एजेंट के "हाथ और आँखें":

केवल दिमाग होना पर्याप्त नहीं है, आपको काम करने में भी सक्षम होना चाहिए। उपकरण एजेंट और बाहरी दुनिया के बीच एक पुल हैं, आमतौर पर API या अन्य फ़ंक्शन।

image.png

टूल मुख्य रूप से तीन प्रकार के होते हैं:

डेटा प्रकार (डेटा): एजेंट को जानकारी प्राप्त करने में मदद करता है, जैसे डेटाबेस की जाँच करना, PDF पढ़ना, वेब पेज खोजना।

क्रिया प्रकार (क्रिया): एजेंट को ऑपरेशन करने में मदद करता है, जैसे ईमेल भेजना, CRM रिकॉर्ड अपडेट करना, ग्राहक सेवा को सूचित करना।

ऑर्केस्ट्रेशन प्रकार (ऑर्केस्ट्रेशन): यह शक्तिशाली है, एक एजेंट दूसरे एजेंट को "टूल" के रूप में कॉल कर सकता है! बाद में विस्तार से बताया जाएगा।

मुख्य बिंदु: टूल की परिभाषा स्पष्ट और मानकीकृत होनी चाहिए, दस्तावेज़ पूर्ण होने चाहिए और परीक्षण पर्याप्त होने चाहिए। इस तरह, एजेंट "गलत टूल" का उपयोग नहीं करेगा, और प्रबंधन और पुन: उपयोग भी आसान होगा।

निर्देश (निर्देश) - एजेंट की "कार्य मार्गदर्शिका":

यह आपके द्वारा एजेंट के लिए स्थापित नियम और कार्यप्रवाह हैं, जो इसे बताते हैं कि "आप कौन हैं", "क्या करना है", "कैसे करना है" और "समस्याओं का समाधान कैसे करना है"। निर्देश अच्छी तरह से लिखे जाने चाहिए, ताकि एजेंट गलत न हो।

अच्छे निर्देश लिखने के सुझाव:

मौजूदा दस्तावेज़ों का उपयोग करें: कंपनी के मौजूदा ऑपरेशन मैनुअल, ग्राहक सेवा स्क्रिप्ट और नीति दस्तावेज़ों को AI द्वारा समझने योग्य स्पष्ट निर्देशों में बदलें।

कार्यों को तोड़ें: जटिल कार्यों को छोटे-छोटे निर्देशों में विभाजित करें, जितना संभव हो उतना विशिष्ट।

क्रियाओं को स्पष्ट करें: प्रत्येक निर्देश एक स्पष्ट क्रिया (जैसे "उपयोगकर्ता से ऑर्डर नंबर पूछें" या "इन्वेंट्री की जांच करने के लिए API कॉल करें") से मेल खाना चाहिए, अस्पष्टता को कम करें।

अपवादों पर विचार करें: विभिन्न संभावित अप्रत्याशित स्थितियों (जैसे उपयोगकर्ता द्वारा अपूर्ण जानकारी प्रदान करना या अजीब प्रश्न पूछना) को पहले से ही सेट करें और एजेंट को बताएं कि उनका समाधान कैसे करें, जैसे बैकअप प्रक्रिया का उपयोग करना या सहायता मांगना।

उन्नत तरीके: आप o1 या o3-mini जैसे उन्नत मॉडल का उपयोग अपने दस्तावेज़ों को स्वचालित रूप से संरचित एजेंट निर्देशों में बदलने के लिए कर सकते हैं! आलसी लोगों के लिए एक वरदान!

एजेंट का संचालन: अकेले काम करना या टीम वर्क?

जब आप "तीन भागों" को तैयार कर लेते हैं, तो एजेंट चलना शुरू कर देता है। लेकिन इसे अधिक कुशलतापूर्वक कैसे चलाया जाए और अधिक जटिल कार्यों को कैसे संभाला जाए? यह ऑर्केस्ट्रेशन की कला से संबंधित है। OpenAI ने दो मुख्य मोड पेश किए हैं:

एकल एजेंट सिस्टम (एकल-एजेंट सिस्टम):

अवधारणा: एक एजेंट सब कुछ करता है। नए टूल जोड़कर और इसके क्षमता वृत्त का विस्तार करके।

लाभ: सरल संरचना, उपयोग में आसान, रखरखाव और मूल्यांकन अपेक्षाकृत आसान है।

उपयुक्त परिदृश्य: अधिकांश कार्यों की शुरुआत। पहले एकल एजेंट की क्षमता को पूरी तरह से विकसित करने पर विचार करें।

कार्यान्वयन: आमतौर पर एक लूप का उपयोग एजेंट को चलाने के लिए किया जाता है, जिससे यह लगातार सोचता है, टूल का उपयोग करता है, परिणाम प्राप्त करता है, जब तक कि बाहर निकलने की शर्तें पूरी नहीं हो जातीं (जैसे कार्य पूरा होना, मानवीय हस्तक्षेप की आवश्यकता, अधिकतम चरणों तक पहुँच जाना)।

उन्नत तकनीक: जब कार्य जटिल हो जाते हैं, तो आप "प्रॉम्प्ट टेम्पलेट" + चर का उपयोग एक मूल एजेंट को विभिन्न परिदृश्यों के अनुकूल बनाने के लिए कर सकते हैं, न कि प्रत्येक परिदृश्य के लिए एक स्वतंत्र निर्देश सेट लिखने के लिए।

बहु-एजेंट सिस्टम (बहु-एजेंट सिस्टम):

अवधारणा: जब एकल एजेंट अपर्याप्त होता है (जैसे तर्क बहुत जटिल है, बहुत सारे टूल हैं और भ्रम पैदा हो सकता है), तो आपको एक एजेंट टीम बनाने की आवश्यकता होती है।

कब विचार करें:

तर्क बहुत जटिल है (जटिल तर्क): यदि निर्देश में बहुत अधिक if-else शाखाएँ हैं, तो टेम्पलेट बहुत बड़ा और रखरखाव में मुश्किल हो जाता है।

टूल अधिभार (टूल अधिभार): बहुत सारे टूल होना कोई समस्या नहीं है, मुख्य बात यह है कि टूल समान हैं और भ्रम पैदा कर सकते हैं। यदि आप टूल विवरण और पैरामीटर को अनुकूलित नहीं कर सकते हैं, तो आपको इसे विभाजित करने पर विचार करना चाहिए। (अनुभव: 10-15 से अधिक स्पष्ट रूप से परिभाषित टूल आमतौर पर ठीक होते हैं, लेकिन यदि टूल की परिभाषा अस्पष्ट है, तो कुछ ही एजेंट को भ्रमित कर सकते हैं)।

दो मुख्य सहयोग मोड:

प्रबंधक मोड (प्रबंधक पैटर्न - टूल के रूप में एजेंट):

उदाहरण: एक "प्रोजेक्ट मैनेजर" एजेंट जिसके पास कई "विशेषज्ञ" एजेंट हैं (जैसे "अनुवाद एजेंट", "अनुसंधान एजेंट", "लेखन एजेंट")। प्रबंधक समग्र समन्वय के लिए जिम्मेदार है, जटिल कार्यों को पूरा करने के लिए विशेषज्ञ एजेंटों को कॉल करता है (उन्हें टूल के रूप में उपयोग करता है)। उपयोगकर्ता केवल प्रबंधक के साथ बातचीत करता है।

लाभ: प्रक्रिया नियंत्रण स्पष्ट है और उपयोगकर्ता अनुभव एकरूप है।

परिदृश्य: उन कार्यों के लिए जिनमें केंद्रीकृत नियंत्रण और परिणाम एकीकरण की आवश्यकता होती है।

विकेंद्रीकृत मोड (विकेंद्रीकृत पैटर्न - एजेंट एजेंट को सौंपते हैं):

उदाहरण: एक कारखाने की असेंबली लाइन या अस्पताल का ट्राइएज डेस्क। एक एजेंट अपना हिस्सा पूरा करने के बाद, कार्य को अगले विशेषज्ञ एजेंट को "सौंप" देता है। नियंत्रण सीधे स्थानांतरित हो जाता है।

लाभ: प्रत्येक एजेंट अधिक केंद्रित है, संरचना लचीली है।

परिदृश्य: बातचीत का प्रवाह, ऐसे कार्य जिनके लिए विभिन्न विशेषज्ञों को क्रमिक रूप से संसाधित करने की आवश्यकता होती है (जैसे ग्राहक सेवा प्रणाली, पहले ट्राइएज एजेंट समस्या के प्रकार का निर्धारण करता है, फिर इसे "ऑर्डर एजेंट" या "तकनीकी सहायता एजेंट" को सौंपता है)।