नोट:

- 🩺 OpenAI ने HealthBench जारी किया है, जो बड़े भाषा मॉडलों (LLMs) के मेडिकल स्केल पर आधारित अमीलन के लिए ध्यान केंद्रित करता है, और इसके विकास में 262 डॉक्टरों का समर्थन मिला।

- 🔍 HealthBench की मूल्यांकन सात महत्वपूर्ण विषयों को कवर करती है, जिसमें 5000 वास्तविक बातचीत शामिल हैं, जो मॉडल के व्यवहार के अधिक विस्तृत विश्लेषण प्रदान करती हैं।

- 📊 मूल्यांकन के परिणाम दिखाते हैं कि मॉडलों के बीच प्रदर्शन में स्पष्ट अंतर आता है, GPT-4.1nano का प्रदर्शन अधिक लागत प्रभावी रूप से हुआ है, जो मॉडल के चिकित्सा उपकरण के रूप में उपयोग की क्षमता को दिखाता है।