Anthropic ने अपग्रेडेड Claude3.5Sonnet और नए मॉडल Claude3.5Haiku को धूमधाम से लॉन्च किया है, दोनों मॉडल ने तर्क, कोडिंग और दृश्य प्रसंस्करण के क्षेत्र में महत्वपूर्ण प्रगति की है। Claude3.5Sonnet को व्यापक रूप से अपडेट किया गया है, इसकी कोडिंग क्षमता उद्योग में अग्रणी है और कई उद्योग मानक परीक्षणों में उत्कृष्ट प्रदर्शन किया है। 

विशेष रूप से उल्लेखनीय है कि इसने SWE-bench Verified परीक्षण में 49.0% का स्कोर प्राप्त किया, जो सभी सार्वजनिक मॉडलों को पीछे छोड़ देता है, जिसमें OpenAI o1-preview जैसे तर्क मॉडल और एजेंट कोडिंग के लिए विशेष रूप से डिज़ाइन किए गए सिस्टम शामिल हैं।

इसके अलावा, इसने एजेंट उपकरण उपयोग कार्य TAU-bench में खुदरा क्षेत्र में 69.2% का स्कोर प्राप्त किया, जबकि अधिक चुनौतीपूर्ण विमानन क्षेत्र में 46.0% का स्कोर हासिल किया।

image.png

सबसे ध्यान देने योग्य बात यह है कि Claude3.5Sonnet ने सार्वजनिक बीटा में "कंप्यूटर उपयोग" सुविधा पेश की है, जो डेवलपर्स को कंप्यूटर का उपयोग करने की अनुमति देती है जैसे कि वे इंसान हों। इसका मतलब है कि Claude स्क्रीन देख सकता है, कर्सर को हिला सकता है, बटन पर क्लिक कर सकता है और टेक्स्ट दर्ज कर सकता है, जो स्वचालन प्रक्रियाओं, सॉफ़्टवेयर निर्माण और परीक्षण, और खुले कार्यों के लिए नए अवसर खोलता है।

Claude3.5Haiku Anthropic का सबसे तेज़ मॉडल है, इसकी प्रदर्शन Claude3Opus के बराबर है, लेकिन यह कम लागत और तेज़ गति प्रदान करता है। यह कोडिंग कार्यों में विशेष रूप से उत्कृष्ट है, जैसे कि SWE-bench Verified परीक्षण में 40.6% का स्कोर प्राप्त करना, जो कई सार्वजनिक अत्याधुनिक मॉडलों का उपयोग करने वाले एजेंटों को पीछे छोड़ देता है, जिसमें प्रारंभिक Claude3.5Sonnet और GPT-4o शामिल हैं। 

Claude3.5Haiku उपयोगकर्ता-उन्मुख उत्पादों, विशेष उप-एजेंट कार्यों और विशाल डेटा (जैसे खरीदारी के इतिहास, मूल्य निर्धारण या स्टॉक रिकॉर्ड) से व्यक्तिगत अनुभव उत्पन्न करने के लिए बहुत उपयुक्त है।

इन सामान्य क्षमताओं को प्राप्त करने के लिए, Anthropic ने एक API बनाया है, जो Claude को कंप्यूटर इंटरफेस को समझने और इंटरैक्ट करने की अनुमति देता है। डेवलपर्स इस API को एकीकृत कर सकते हैं ताकि Claude निर्देशों (जैसे, "मेरे कंप्यूटर और ऑनलाइन डेटा का उपयोग करके इस फॉर्म को भरें") को कंप्यूटर कमांड (जैसे स्प्रेडशीट की जांच करना; कर्सर को वेब ब्राउज़र खोलने के लिए स्थानांतरित करना; प्रासंगिक वेब पेज पर नेविगेट करना; उन पृष्ठों पर डेटा का उपयोग करके फॉर्म भरना आदि) में बदल सके।

image.png

image.png

image.png

AI मॉडल की कंप्यूटर का उपयोग करने की क्षमताओं का मूल्यांकन करने वाले OSWorld परीक्षण में, Claude3.5Sonnet ने केवल स्क्रीनशॉट-आधारित श्रेणी में 14.9% का स्कोर प्राप्त किया, जो दूसरे स्थान पर आने वाले AI सिस्टम के 7.8% के स्कोर से स्पष्ट रूप से बेहतर है। जब कार्य को पूरा करने के लिए अधिक चरण होते हैं, तो Claude का स्कोर 22.0% तक पहुंच गया।

Anthropic ने जोर दिया कि हालांकि इस सुविधा में आने वाले महीनों में तेजी से सुधार की उम्मीद है, लेकिन वर्तमान में Claude की कंप्यूटर का उपयोग करने की क्षमता पूरी तरह से परिपूर्ण नहीं है। कुछ कार्य (जैसे: स्क्रॉल करना, खींचना, ज़ूम करना) जो मानव आसानी से कर सकते हैं, अभी भी Claude के लिए चुनौतीपूर्ण हैं, और Anthropic डेवलपर्स को कम जोखिम वाले कार्यों से अन्वेषण शुरू करने के लिए प्रोत्साहित करता है।

image.png

चूंकि कंप्यूटर का उपयोग स्पैम, फर्जी जानकारी या धोखाधड़ी जैसे अधिक सामान्य खतरों के लिए नए रास्ते खोल सकता है, Anthropic इसकी सुरक्षित तैनाती को बढ़ावा देने के लिए सक्रिय दृष्टिकोण अपना रहा है। उन्होंने नए वर्गीकरणकर्ता विकसित किए हैं जो पहचानते हैं कि कब कंप्यूटर का उपयोग किया जा रहा है और क्या कोई हानि हो रही है।

वर्तमान में, Claude3.5Sonnet सभी उपयोगकर्ताओं के लिए खुला है। आज से, डेवलपर्स Anthropic API, Amazon Bedrock और Google Cloud के Vertex AI पर "कंप्यूटर उपयोग" बीटा का उपयोग करके निर्माण कर सकते हैं। नया Claude3.5Haiku इस महीने के अंत में जारी किया जाएगा।