एक नए अध्ययन से पता चला है कि OpenAI का o1-preview आर्टिफिशियल इंटेलिजेंस सिस्टम जटिल चिकित्सा मामलों का निदान करने में मानव डॉक्टरों से बेहतर हो सकता है। हार्वर्ड मेडिकल स्कूल और स्टैनफोर्ड यूनिवर्सिटी की शोध टीम ने o1-preview का व्यापक चिकित्सा निदान परीक्षण किया, जिसके परिणामस्वरूप इस प्रणाली में पिछले संस्करणों की तुलना में महत्वपूर्ण प्रगति दिखाई दी।

अध्ययन के परिणामों के अनुसार, o1-preview ने सभी परीक्षण किए गए मामलों में 78.3% सही निदान दर प्राप्त की। 70 विशिष्ट मामलों की सीधी तुलना में, इस प्रणाली की सटीक निदान दर 88.6% तक पहुंच गई, जो इसके पूर्ववर्ती GPT-4 की 72.9% से काफी अधिक है। चिकित्सा तर्क में, o1-preview का प्रदर्शन भी उल्लेखनीय है। R-IDEA पैमाने का उपयोग करते हुए, इस AI सिस्टम ने 80 मामलों में से 78 में पूर्ण अंक प्राप्त किए। इसके विपरीत, अनुभवी डॉक्टरों ने केवल 28 मामलों में पूर्ण अंक प्राप्त किए, जबकि चिकित्सा निवासियों ने केवल 16 मामलों में ही ऐसा किया।

शोधकर्ताओं ने यह भी स्वीकार किया कि o1-preview के प्रशिक्षण डेटा में कुछ परीक्षण मामले शामिल हो सकते हैं। हालाँकि, जब उन्होंने प्रणाली का नए मामलों पर परीक्षण किया, तो प्रदर्शन केवल थोड़ी गिरावट आई। अध्ययन के एक लेखक डॉ. एडम रोडमैन ने जोर दिया कि, हालांकि यह एक बेंचमार्क अध्ययन है, लेकिन इसके परिणाम चिकित्सा प्रथाओं के लिए महत्वपूर्ण संकेत देते हैं।

o1-preview ने 25 विशेषज्ञों द्वारा विशेष रूप से डिज़ाइन किए गए जटिल प्रबंधन मामलों को संभालने में विशेष रूप से उत्कृष्ट प्रदर्शन किया। "इन कठिनाइयों के सामने मानव असहाय लगते हैं, लेकिन o1 का प्रदर्शन आश्चर्यजनक है," रोडमैन ने समझाया। इन जटिल मामलों में, o1-preview ने 86% अंक प्राप्त किए, जबकि डॉक्टरों ने GPT-4 का उपयोग करते हुए केवल 41% अंक प्राप्त किए, पारंपरिक उपकरणों ने तो केवल 34% अंक प्राप्त किए।

हालांकि, o1-preview में कुछ खामियाँ भी हैं। संभावना के आकलन में, इस प्रणाली का प्रदर्शन स्पष्ट रूप से सुधार नहीं हुआ है; उदाहरण के लिए, न्यूमोनिया की संभावना का आकलन करते समय, o1-preview ने 70% का अनुमान दिया, जो वैज्ञानिक सीमा 25%-42% से काफी अधिक है। शोधकर्ताओं ने पाया कि o1-preview उन कार्यों में उत्कृष्ट प्रदर्शन करता है जिनमें आलोचनात्मक सोच की आवश्यकता होती है, लेकिन अधिक अमूर्त चुनौतियों, जैसे कि संभावनाओं का आकलन, में यह संघर्ष करता है।

इसके अलावा, o1-preview सामान्यतः विस्तृत उत्तर प्रदान करता है, जो इसके स्कोर को बढ़ा सकता है। लेकिन अध्ययन ने केवल o1-preview के एकल कार्य की स्थिति पर ध्यान केंद्रित किया, और डॉक्टरों के साथ सहयोग के प्रभाव का मूल्यांकन नहीं किया। कुछ आलोचकों ने यह指出 किया है कि o1-preview द्वारा सुझाए गए निदान परीक्षण अक्सर महंगे और अव्यवहारिक होते हैं।

image.png

हालांकि OpenAI ने o1 और o3 के नए संस्करण जारी किए हैं और जटिल तर्क कार्यों में उत्कृष्टता दिखाई है, लेकिन ये अधिक शक्तिशाली मॉडल आलोचकों द्वारा उठाए गए वास्तविक अनुप्रयोग और लागत के मुद्दों को हल नहीं कर पाए हैं। रोडमैन ने आह्वान किया कि शोधकर्ताओं को चिकित्सा AI प्रणालियों के मूल्यांकन के लिए बेहतर तरीकों की आवश्यकता है, ताकि वास्तविक चिकित्सा निर्णयों में जटिलता को कैद किया जा सके। उन्होंने जोर दिया कि यह अध्ययन डॉक्टरों को प्रतिस्थापित करने का अर्थ नहीं है; वास्तविक चिकित्सा में मानव की भागीदारी की आवश्यकता है।

पेपर: https://arxiv.org/abs/2412.10849

मुख्य बिंदु:  

🌟 o1-preview ने निदान दर में डॉक्टरों को पीछे छोड़ते हुए 88.6% की सटीकता प्राप्त की।  

🧠 चिकित्सा तर्क के मामले में, o1-preview ने 80 मामलों में से 78 में पूर्ण अंक प्राप्त किए, जो डॉक्टरों के प्रदर्शन से बहुत अधिक है।  

💰 हालांकि प्रदर्शन उत्कृष्ट है, o1-preview के वास्तविक अनुप्रयोगों में उच्च लागत और अव्यवहारिक परीक्षण सुझावों को हल करने की आवश्यकता है।