Claude3.5 का भारी उन्नयन: Sonnet कोडिंग क्षमताएँ o1 को मात देती हैं, Haiku की कीमत-प्रदर्शन अनुपात अद्वितीय है, और यह कंप्यूटर का उपयोग भी कर सकता है!

AIbase基地

द्वारा प्रकाशितAI समाचार · 7 मिनट पढ़ें · Oct 23, 2024

489

Anthropic ने अपग्रेडेड Claude3.5Sonnet और नए मॉडल Claude3.5Haiku को धूमधाम से लॉन्च किया है, दोनों मॉडल ने तर्क, कोडिंग और दृश्य प्रसंस्करण के क्षेत्र में महत्वपूर्ण प्रगति की है। Claude3.5Sonnet को व्यापक रूप से अपडेट किया गया है, इसकी कोडिंग क्षमता उद्योग में अग्रणी है और कई उद्योग मानक परीक्षणों में उत्कृष्ट प्रदर्शन किया है।

विशेष रूप से उल्लेखनीय है कि इसने SWE-bench Verified परीक्षण में 49.0% का स्कोर प्राप्त किया, जो सभी सार्वजनिक मॉडलों को पीछे छोड़ देता है, जिसमें OpenAI o1-preview जैसे तर्क मॉडल और एजेंट कोडिंग के लिए विशेष रूप से डिज़ाइन किए गए सिस्टम शामिल हैं।

इसके अलावा, इसने एजेंट उपकरण उपयोग कार्य TAU-bench में खुदरा क्षेत्र में 69.2% का स्कोर प्राप्त किया, जबकि अधिक चुनौतीपूर्ण विमानन क्षेत्र में 46.0% का स्कोर हासिल किया।

सबसे ध्यान देने योग्य बात यह है कि Claude3.5Sonnet ने सार्वजनिक बीटा में "कंप्यूटर उपयोग" सुविधा पेश की है, जो डेवलपर्स को कंप्यूटर का उपयोग करने की अनुमति देती है जैसे कि वे इंसान हों। इसका मतलब है कि Claude स्क्रीन देख सकता है, कर्सर को हिला सकता है, बटन पर क्लिक कर सकता है और टेक्स्ट दर्ज कर सकता है, जो स्वचालन प्रक्रियाओं, सॉफ़्टवेयर निर्माण और परीक्षण, और खुले कार्यों के लिए नए अवसर खोलता है।

Claude3.5Haiku Anthropic का सबसे तेज़ मॉडल है, इसकी प्रदर्शन Claude3Opus के बराबर है, लेकिन यह कम लागत और तेज़ गति प्रदान करता है। यह कोडिंग कार्यों में विशेष रूप से उत्कृष्ट है, जैसे कि SWE-bench Verified परीक्षण में 40.6% का स्कोर प्राप्त करना, जो कई सार्वजनिक अत्याधुनिक मॉडलों का उपयोग करने वाले एजेंटों को पीछे छोड़ देता है, जिसमें प्रारंभिक Claude3.5Sonnet और GPT-4o शामिल हैं।

Claude3.5Haiku उपयोगकर्ता-उन्मुख उत्पादों, विशेष उप-एजेंट कार्यों और विशाल डेटा (जैसे खरीदारी के इतिहास, मूल्य निर्धारण या स्टॉक रिकॉर्ड) से व्यक्तिगत अनुभव उत्पन्न करने के लिए बहुत उपयुक्त है।

इन सामान्य क्षमताओं को प्राप्त करने के लिए, Anthropic ने एक API बनाया है, जो Claude को कंप्यूटर इंटरफेस को समझने और इंटरैक्ट करने की अनुमति देता है। डेवलपर्स इस API को एकीकृत कर सकते हैं ताकि Claude निर्देशों (जैसे, "मेरे कंप्यूटर और ऑनलाइन डेटा का उपयोग करके इस फॉर्म को भरें") को कंप्यूटर कमांड (जैसे स्प्रेडशीट की जांच करना; कर्सर को वेब ब्राउज़र खोलने के लिए स्थानांतरित करना; प्रासंगिक वेब पेज पर नेविगेट करना; उन पृष्ठों पर डेटा का उपयोग करके फॉर्म भरना आदि) में बदल सके।

AI मॉडल की कंप्यूटर का उपयोग करने की क्षमताओं का मूल्यांकन करने वाले OSWorld परीक्षण में, Claude3.5Sonnet ने केवल स्क्रीनशॉट-आधारित श्रेणी में 14.9% का स्कोर प्राप्त किया, जो दूसरे स्थान पर आने वाले AI सिस्टम के 7.8% के स्कोर से स्पष्ट रूप से बेहतर है। जब कार्य को पूरा करने के लिए अधिक चरण होते हैं, तो Claude का स्कोर 22.0% तक पहुंच गया।

Anthropic ने जोर दिया कि हालांकि इस सुविधा में आने वाले महीनों में तेजी से सुधार की उम्मीद है, लेकिन वर्तमान में Claude की कंप्यूटर का उपयोग करने की क्षमता पूरी तरह से परिपूर्ण नहीं है। कुछ कार्य (जैसे: स्क्रॉल करना, खींचना, ज़ूम करना) जो मानव आसानी से कर सकते हैं, अभी भी Claude के लिए चुनौतीपूर्ण हैं, और Anthropic डेवलपर्स को कम जोखिम वाले कार्यों से अन्वेषण शुरू करने के लिए प्रोत्साहित करता है।

चूंकि कंप्यूटर का उपयोग स्पैम, फर्जी जानकारी या धोखाधड़ी जैसे अधिक सामान्य खतरों के लिए नए रास्ते खोल सकता है, Anthropic इसकी सुरक्षित तैनाती को बढ़ावा देने के लिए सक्रिय दृष्टिकोण अपना रहा है। उन्होंने नए वर्गीकरणकर्ता विकसित किए हैं जो पहचानते हैं कि कब कंप्यूटर का उपयोग किया जा रहा है और क्या कोई हानि हो रही है।

वर्तमान में, Claude3.5Sonnet सभी उपयोगकर्ताओं के लिए खुला है। आज से, डेवलपर्स Anthropic API, Amazon Bedrock और Google Cloud के Vertex AI पर "कंप्यूटर उपयोग" बीटा का उपयोग करके निर्माण कर सकते हैं। नया Claude3.5Haiku इस महीने के अंत में जारी किया जाएगा।

क्लॉड स्लैक में उपलब्ध है संघीय कार्य को सहायता करने के लिए

Claude AI अब Slack पर उपलब्ध है, निजी चैट और @मेंशन सपोर्ट करता है। वेब खोज, दस्तावेज़ विश्लेषण और टूल्स के साथ एकीकरण की सुविधा देता है। टीम सहयोग को बेहतर बनाता है।....

छोटे VLM के अनुभव में उभरा: Moondream 3.0 के केवल 2B सक्रिय पैरामीटर ने GPT-5 और Claude 4 को हरा दिया

Moondream3.0 प्रीव्यू संस्करण ने हल्का और कारगर मिश्रित विशेषज्ञ आर्किटेक्चर (कुल 9B, सक्रिय केवल 2B) के साथ दृश्य भाषा मॉडल के आधुनिकीकरण का नेतृत्व किया। इसका जटिल स्थिति में अच्छा प्रदर्शन रहा, और कई बेंचमार्क परीक्षण में GPT-5, Gemini और Claude4 जैसे प्रमुख मॉडल से ऊपर रहा। 2.0 संस्करण की वर्णन जैसे कैप्चा पहचान में बढ़त के बजाय, 3.0 संस्करण ने दृश्य तर्क क्षमता का विस्तार किया, जिसके कारण AI समुदाय में व्यापक ध्यान आकर्षित हुआ।

AI तीन महानुभावों के झटके: नए प्रोग्रामिंग परीक्षण में सही दर सभी 25% से नीचे गिर गई GPT-5 भी बर्बाद हो गया

Scale AI के SWE-BENCH PRO प्रोग्रामिंग मूल्यांकन में AI के तीन बड़े नाम GPT-5, Claude Opus4.1 और Gemini2.5 का प्रदर्शन खराब रहा, कोई भी 25% हल करने की दर को छू नहीं पाया। GPT-5 केवल 23.3% ही रहा, Claude Opus4.1 के 22.7% थे और Gemini2.5 केवल 13.5% तक गिर गया। यह परिणाम उद्योग के विश्वास को चोट पहुंचा रहा है और शीर्ष एआई मॉडल के जटिल प्रोग्रामिंग कार्यों में गंभीर कमजोरियों को उजागर कर रहा है।

शांगहाई आईएआई लैब ने बहुमाध्यम बड़ा मॉडल शुन्गशेन · वैनोर्ड इंटर्नवीएल3.5 जारी किया

शंघाई AI लैब ने इंटर्नVL3.5 मल्टीमोडल मॉडल जारी किया, जो रीज़निंग, डिप्लॉयमेंट और परफॉरमेंस में सुधार करता है। 1B से 241B तक के संस्करण उपलब्ध हैं, जो ओपन-सोर्स मॉडल्स के प्रदर्शन को नए स्तर पर ले जाते हैं।....

मेंटू ने मीसीक्स समीक्षा बेंचमार्क जारी किया! o3-मिनी शीर्ष पर, DeepSeek-R1 अप्रत्याशित रूप से अंतिम स्थान पर आ गया है जिसके कारण चर्चा हुई

मीटीम M17 टीम ने Meeseeks बेंचमार्क लॉन्च किया, जो OpenAI, Claude3.5Sonnet जैसे बड़े भाषा मॉडल्स की निर्देशों का पालन करने की क्षमता का मूल्यांकन करता है।....

चीनी विज्ञान अकादमी और ताइवान के साथ मिलकर प्रोग्रामिंग के डार्विन का निर्माण: SE-Agent स्व-अपग्रेडिंग बुद्धिमान एजेंट 61.2% सफलता दर के साथ वैश्विक आंदोलन को उछल देता है

SE-Agent पारंपरिक AI प्रोग्रामिंग को पीछे छोड़ता है, स्व-अनुकूलन और ज्ञान संचय के माध्यम से प्रोग्रामिंग क्रांति लाता है। चीनी विज्ञान अकादमी और सिंघुआ विश्वविद्यालय द्वारा विकसित, यह Claude-4 मॉडल की सीमाओं को पार कर रहा है।....

एंथ्रोपिक ने क्लॉड के लिए एक नया सीखने का मोड लॉन्च किया, AI शिक्षा बाजार में प्रतिस्पर्धा करते हुए तत्काल उत्तरों पर निर्भरता को संबोधित करता है

Anthropic ने Claude चैटबॉट में 'लर्निंग मोड' लॉन्च किया, जो सीधे जवाब देने के बजाय सवालों के माध्यम से सीखने में मदद करता है। यह सुविधा अब सामान्य और प्रोग्रामिंग संस्करण में उपलब्ध है।....

एंथ्रोपिक सरकार के कृत्रिम बुद्धिमत्ता के प्रचार को बढ़ा रहा है, क्लॉड तीन अमेरिकी विभागों में एक डॉलर प्रति वर्ष के साथ शामिल हो रहा है

Anthropic ने अमेरिकी सरकार के तीन विभागों को 1 डॉलर प्रति वर्ष की कीमत पर Claude AI सेवा प्रदान करने की घोषणा की, जो OpenAI के ChatGPT Enterprise के सीधे प्रतिस्पर्धी है।....

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

AI Models Finder

LLM Leaderboard

Model Providers

Submit Your Model

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

GEO Services

AI Search Visibility Checker

AI Model Compatibility Checker

AI Dataset Collection

Intelligent Document Recognition

AIbase基地

यह लेख AIbase दैनिक से है

संबंधित AI समाचार अनुशंसाएँ

क्लॉड स्लैक में उपलब्ध है संघीय कार्य को सहायता करने के लिए

छोटे VLM के अनुभव में उभरा: Moondream 3.0 के केवल 2B सक्रिय पैरामीटर ने GPT-5 और Claude 4 को हरा दिया

AI तीन महानुभावों के झटके: नए प्रोग्रामिंग परीक्षण में सही दर सभी 25% से नीचे गिर गई GPT-5 भी बर्बाद हो गया

शांगहाई आईएआई लैब ने बहुमाध्यम बड़ा मॉडल शुन्गशेन · वैनोर्ड इंटर्नवीएल3.5 जारी किया

GPT-5 का मूल्यांकन: GPT-5, Claude 4 Opus, Gemini 2.5 Pro तीन प्रमुख AI मॉडल की तुलना

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

AI Models Finder

LLM Leaderboard

Model Providers

Submit Your Model

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

GEO Services​

AI Search Visibility Checker

AI Model Compatibility Checker

AI Dataset Collection

Intelligent Document Recognition

AIbase基地

यह लेख AIbase दैनिक से है

संबंधित AI समाचार अनुशंसाएँ

क्लॉड स्लैक में उपलब्ध है संघीय कार्य को सहायता करने के लिए

छोटे VLM के अनुभव में उभरा: Moondream 3.0 के केवल 2B सक्रिय पैरामीटर ने GPT-5 और Claude 4 को हरा दिया

AI तीन महानुभावों के झटके: नए प्रोग्रामिंग परीक्षण में सही दर सभी 25% से नीचे गिर गई GPT-5 भी बर्बाद हो गया

शांगहाई आईएआई लैब ने बहुमाध्यम बड़ा मॉडल शुन्गशेन · वैनोर्ड इंटर्नवीएल3.5 जारी किया

GPT-5 का मूल्यांकन: GPT-5, Claude 4 Opus, Gemini 2.5 Pro तीन प्रमुख AI मॉडल की तुलना

GEO Services